交叉熵损失函数的改进_为什么交叉熵可以用于损失计算？

最新推荐文章于 2022-05-16 16:43:14 发布

weixin_34180452

最新推荐文章于 2022-05-16 16:43:14 发布

阅读量395

点赞数

文章标签：交叉熵损失函数的改进

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34180452/article/details/112749454

版权

信息熵、交叉熵和相对熵

词源 — 最初来源于热力学

Entropy来源于希腊语，原意：内向，即：一个系统不受外部干扰时往内部稳定状态发展的特性。定义的其实是一个热力学的系统变化的趋势。

1923年，德国科学家普朗克来中国讲学用到 entropy 这个词，胡刚复教授看到这个公式，创造了“熵”字，因为“火”和热量有关，定义式又是热量比温度，相当自洽。

信息论

信息论中，熵是接受的每条消息中包含的信息的平均值。又被称为信息熵、信源熵、平均自信息量。可以被理解为不确定性的度量，熵越大，信源的分布越随机。

1948年，由克劳德·爱尔伍德·香农将热力学中的熵引入信息论，所以也叫做：香农熵。

生态学

在生态学中，熵表示生物多样性的指标。

广义的定义

熵是描述一个系统的无序程度的变量；同样的表述还有，熵是系统混乱度的度量，一切自发的不可逆过程都是从有序到无序的变化过程，向熵增的方向进行。

信息熵、交叉熵、相对熵的定义

信息熵是信息量的期望(均值)，它不是针对每条信息，而是针对整个不确定性结果集而言，信息熵越大，事件不确定性就越大。单条信息只能从某种程度上影响结果集概率的分布。

根据真实分布，我们能够找到一个最优策略，以最小的代价消除系统的不确定性(比如编码)，而这个代价的大小就是信息熵。

交叉熵，用来衡量在给定的真实分布下，使用非真实分布指定的策略消除系统的不确定性所需要付出努力的大小。

相对熵，即散度，是用来衡量两个概率分布之间的差异。

信息论的角度

散度可以用于计算代价，在特定情况下，最小化散度等价于最小化交叉熵，而交叉熵形式更简单，被广泛用于代价计算。

最小化模型输出的概率分布和训练数据上的分布，等价于最小化这两个分布的散度。

极大似然估计的角度

随机变量，真实分布为，进行次独立同分布实验，统计每个结果出现的次数，似然函数可以写成

取对数，用频率替换掉次数，目标函数极大换成极小，就得到了熟悉的交叉熵。

采用拉格朗日乘子可以求解带约束问题

结合归一化条件，可以得到

用交叉熵求解带约束问题的极小值，等价于使得模型分布接近训练数据的分布。

weixin_34180452

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
交叉熵损失函数的改进_为什么交叉熵可以用于损失计算？

信息熵、交叉熵和相对熵词源 — 最初来源于热力学Entropy来源于希腊语，原意：内向，即：一个系统不受外部干扰时往内部稳定状态发展的特性。定义的其实是一个热力学的系统变化的趋势。1923年，德国科学家普朗克来中国讲学用到 entropy 这个词，胡刚复教授看到这个公式，创造了“熵”字，因为“火”和热量有关，定义式又是热量比温度，相当自洽。信息论信息论中，熵是接受的每条消息中包含的信息的平均值。又...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。