信息熵、交叉熵和相对熵
词源 — 最初来源于热力学
Entropy来源于希腊语,原意:内向,即:一个系统不受外部干扰时往内部稳定状态发展的特性。定义的其实是一个热力学的系统变化的趋势。
![f6a6c98cc4b0b2dae001de42bbd50ce0.png](https://i-blog.csdnimg.cn/blog_migrate/4c1cc22b9eb110ef4e7951ac1e947ded.jpeg)
1923年,德国科学家普朗克来中国讲学用到 entropy 这个词,胡刚复教授看到这个公式,创造了“熵”字,因为“火”和热量有关,定义式又是热量比温度,相当自洽。
信息论
信息论中,熵是接受的每条消息中包含的信息的平均值。又被称为信息熵、信源熵、平均自信息量。可以被理解为不确定性的度量,熵越大,信源的分布越随机。
1948年,由克劳德·爱尔伍德·香农将热力学中的熵引入信息论,所以也叫做:香农熵。
生态学
在生态学中,熵表示生物多样性的指标。
广义的定义
熵是描述一个系统的无序程度的变量;同样的表述还有,熵是系统混乱度的度量,一切自发的不可逆过程都是从有序到无序的变化过程,向熵增的方向进行。
信息熵、交叉熵、相对熵的定义
信息熵是信息量的期望(均值),它不是针对每条信息,而是针对整个不确定性结果集而言,信息熵越大,事件不确定性就越大。单条信息只能从某种程度上影响结果集概率的分布。
根据真实分布,我们能够找到一个最优策略,以最小的代价消除系统的不确定性(比如编码),而这个代价的大小就是信息熵。
![92b20df251d7619298e2abfc82af6505.png](https://i-blog.csdnimg.cn/blog_migrate/5a012193941f4c001ce374b4afb9fe7e.jpeg)
交叉熵,用来衡量在给定的真实分布下,使用非真实分布指定的策略消除系统的不确定性所需要付出努力的大小。
![e7b64708c3fb08081f6ce380e6b05d2c.png](https://i-blog.csdnimg.cn/blog_migrate/5fa7b14922d6aeddbe09232fd3938d42.jpeg)
相对熵,即 散度,是用来衡量两个概率分布之间的差异。
![a57d1a82d3a577b03bdd3130532c20f8.png](https://i-blog.csdnimg.cn/blog_migrate/992d98de5c351bc6a7e6546ed78e4a7f.jpeg)
信息论的角度
散度可以用于计算代价,在特定情况下,最小化 散度等价于最小化交叉熵,而交叉熵形式更简单,被广泛用于代价计算。
![4c2be5651dfd70c807b07c43017aac73.png](https://i-blog.csdnimg.cn/blog_migrate/a168a6f39d2b8f250ef7995af57f282f.jpeg)
最小化模型输出的概率分布和训练数据上的分布,等价于最小化这两个分布的 散度。
极大似然估计的角度
随机变量 ,真实分布为 ,进行 次独立同分布实验,统计每个结果出现的次数 ,似然函数可以写成
![e3a98418c15b60939a9f60b8261bb651.png](https://i-blog.csdnimg.cn/blog_migrate/4710d743c8f69d04ba927b2ee2bd3c26.jpeg)
取对数,用频率替换掉次数 ,目标函数极大换成极小,就得到了熟悉的交叉熵。
![996c30a992f1cb281b7b295e2036c746.png](https://i-blog.csdnimg.cn/blog_migrate/bf1f0764090ac1dc1d2cfad9c0dc7beb.jpeg)
采用拉格朗日乘子可以求解带约束问题
![35f0d99bbd374a1bd4de32ff50302a2d.png](https://i-blog.csdnimg.cn/blog_migrate/c673a883f68232abbda548ca0ceea2aa.jpeg)
结合归一化条件,可以得到
![16ef4199a8f37f3f0437f7b5279156b5.png](https://i-blog.csdnimg.cn/blog_migrate/a5a331f83e7b4191ff856b9d0cf67203.jpeg)
用交叉熵求解带约束问题的极小值,等价于使得模型分布接近训练数据的分布。