相对熵与交叉熵_相对熵、交叉熵

最新推荐文章于 2023-08-16 11:48:09 发布

黄冠恒

最新推荐文章于 2023-08-16 11:48:09 发布

阅读量131

点赞数

文章标签：相对熵与交叉熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42299560/article/details/112749434

版权

1.信息量

①事件信息量和该事件发生的概率有关；

②设事件

，则发生的概率为

;

③本文所有log均为已e为底；

信息量为：

④可以说，发生概率越小，信息量越大

2.熵（Entropy）

所有信息量的期望：

3.相对熵（KL散度）（Relative Entropy）

①如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x)，我们可以使用 KL 散度来衡量这两个分布的差异；

②在机器学习中，P往往用来表示样本的真实分布，比如[1,0,0]表示当前样本属于第一类。Q用来表示模型所预测的分布，比如[0.7,0.2,0.1]。直观的理解就是如果用P来描述样本，那么就非常完美。而用Q来描述样本，虽然可以大致描述，但是不是那么的完美，信息量不足，需要额外的一些“信息增量”才能达到和P一样完美的描述。如果我们的Q通过反复训练，也能完美的描述样本，那么就不再需要额外的“信息增量”，Q等价于P；

KL散度：

③n为事件的所有可能性；

④DKL的值越小，表示Q分布和P分布越接近；

4.交叉熵（Cross Entropy）

对上式变形可得：

等式的前一部分恰巧就是P的熵，等式的后一部分，就是交叉熵：

在机器学习中，我们需要评估label和predicts之间的差距，使用KL散度刚刚好，即DKL(y||y^)，由于KL散度中的前一部分−H(y)不变（样本分布不变），故在优化过程中，只需要关注交叉熵就可以了。所以一般在机器学习中直接用用交叉熵做loss function，评估模型。

感谢原作者：

【史丹利复合田的博客】 - CSDN博客blog.csdn.net

https:// blog.csdn.net/tsyccnh/a rticle/details/79163834

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
相对熵与交叉熵_相对熵、交叉熵

1.信息量①事件信息量和该事件发生的概率有关；②设事件，则发生的概率为 ;③本文所有log均为已e为底；信息量为： ④可以说，发生概率越小，信息量越大2.熵（Entropy）所有信息量的期望： 3.相对熵（KL散度）（Relative Entropy）①如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x)，我们可以使用 KL 散度来衡量这两个分布的差异；②在机器学习中...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。