交叉熵损失函数的改进_为什么交叉熵可以用于损失计算?

信息熵、交叉熵和相对熵

词源 — 最初来源于热力学

Entropy来源于希腊语,原意:内向,即:一个系统不受外部干扰时往内部稳定状态发展的特性。定义的其实是一个热力学的系统变化的趋势。

f6a6c98cc4b0b2dae001de42bbd50ce0.png

1923年,德国科学家普朗克来中国讲学用到 entropy 这个词,胡刚复教授看到这个公式,创造了“熵”字,因为“火”和热量有关,定义式又是热量比温度,相当自洽。

信息论

信息论中,熵是接受的每条消息中包含的信息的平均值。又被称为信息熵、信源熵、平均自信息量。可以被理解为不确定性的度量,熵越大,信源的分布越随机。

1948年,由克劳德·爱尔伍德·香农将热力学中的熵引入信息论,所以也叫做:香农熵。

生态学

在生态学中,熵表示生物多样性的指标

广义的定义

熵是描述一个系统的无序程度的变量;同样的表述还有,熵是系统混乱度的度量,一切自发的不可逆过程都是从有序无序的变化过程,向熵增的方向进行。

信息熵、交叉熵、相对熵的定义

信息熵是信息量的期望(均值),它不是针对每条信息,而是针对整个不确定性结果集而言,信息熵越大,事件不确定性就越大。单条信息只能从某种程度上影响结果集概率的分布

根据真实分布,我们能够找到一个最优策略,以最小的代价消除系统的不确定性(比如编码),而这个代价的大小就是信息熵

92b20df251d7619298e2abfc82af6505.png

交叉熵,用来衡量在给定的真实分布下,使用非真实分布指定的策略消除系统的不确定性所需要付出努力的大小

e7b64708c3fb08081f6ce380e6b05d2c.png

相对熵,即 散度,是用来衡量两个概率分布之间的差异。

a57d1a82d3a577b03bdd3130532c20f8.png

信息论的角度

散度可以用于计算代价,在特定情况下,最小化 ​散度等价于最小化交叉熵,而交叉熵形式更简单,被广泛用于代价计算。

4c2be5651dfd70c807b07c43017aac73.png

最小化模型输出的概率分布和训练数据上的分布,等价于最小化这两个分布的 ​ 散度

极大似然估计的角度

随机变量 ​,真实分布为 ​,进行 ​次独立同分布实验,统计每个结果出现的次数 ​,似然函数可以写成

e3a98418c15b60939a9f60b8261bb651.png

取对数,用频率​替换掉次数 ​,目标函数极大换成极小,就得到了熟悉的交叉熵

996c30a992f1cb281b7b295e2036c746.png

采用拉格朗日乘子可以求解带约束问题

35f0d99bbd374a1bd4de32ff50302a2d.png

结合归一化条件,可以得到

16ef4199a8f37f3f0437f7b5279156b5.png

用交叉熵求解带约束问题的极小值,等价于使得模型分布接近训练数据的分布

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值