非香农类信息不等式_信息熵、相对熵、交叉熵

电影神庙

于 2021-01-05 22:26:45 发布

阅读量301

点赞数

文章标签：非香农类信息不等式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34487462/article/details/112559078

版权

信息熵

1948年，香农提出了“信息熵”的概念，解决了对信息的量化度量问题。C.E.Shannon（香农）用信息熵来表示混合概率分布不确定的程度(不确定性越大，熵越大)。

信息熵定义：

举个例子：假设抛硬币P(x=正面)=0.4，P(x=反面)=0.6，此时有

从上图可以得到在正反面概率都为0.5时，信息熵最大。直观上可以这么理解：正反概率都为0.5时候，硬币的不确定性最大，那么它的熵也就最大。

相对熵

相对熵是两个概率分布（probability distribution）间差异的非对称性度量，用来衡量两个分布之间的差异

交叉熵

相对熵可以看作，交叉熵-label概率分布的信息熵

其中

就是交叉熵。

其中P是label在给定输入下的概率分布，Q是网络预测输出的分布。在模型迭代求导过程中，-H(P)这一块是常数，那么不需要加进来求导。因此，在分类任务模型训练中往往使用交叉熵作为损失函数。并且交叉熵带有的log函数在迭代求导过程中能够抵消指数函数在梯度计算上的影响。

本文对这三个概念做一个知识笔记整理，还会持续更新，丰富内容

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
非香农类信息不等式_信息熵、相对熵、交叉熵

信息熵1948年，香农提出了“信息熵”的概念，解决了对信息的量化度量问题。C.E.Shannon（香农）用信息熵来表示混合概率分布不确定的程度(不确定性越大，熵越大)。信息熵定义：举个例子：假设抛硬币P(x=正面)=0.4，P(x=反面)=0.6，此时有从上图可以得到在正反面概率都为0.5时，信息熵最大。直观上可以这么理解：正反概率都为0.5时候，硬币的不确定性最大，那么它的熵也就最大。相对...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。