关于交叉熵的个人理解

最新推荐文章于 2024-08-09 13:44:55 发布

weixin_34220623

最新推荐文章于 2024-08-09 13:44:55 发布

阅读量171

点赞数

原文链接：https://juejin.im/post/5c6a98c46fb9a049b13ec2b5

版权

之前虽然使用过cross-entropy函数，但是并不知道它代表的实际意义，只是知道的其能够进行loss计算，这次从其根源的意义做一个总结，来加深对cross-entropy的理解；

一、熵

对于交叉熵，我们首先要直到熵神马意思；

熵的意义是一个事件A的自信息量，也就是A包含多少信息。对于事件A，越难发生，发生的概率越小，包含的信息量就越大；例如，中国队世界杯夺冠，巴西队世界杯夺冠，肯定前者包含的信息量最大；

熵的定义如下所示：

可以式子中看出，其也就是所有信息量的期望；之所以要求和，究其原因是时间独立，熵可以叠加。其中p代表的x事件发生的概率。

对于单个事件发生的信息量，可以表示：

由于-log函数的存在，当p趋于0，其值就越大；所以第一个式子也就是多个独立事件的总期望；

二、KL散度

KL散度是用来衡量两个分布之间的不同，其实和欧几里得距离的性质有点像，只不过其研究的是分布之间的不同，也称KL距离。但是注意一点，KL距离没有对称性，a和b的KL距离和b和a的KL距离并不相同；

KL散度的定义如下：

第一个子式为离散情况，后一个为连续情况，不同的只是求不求积分；

如果当Pa=Pb时，则两个事件的分布完全相同，则KL散度等于0，此时可以理解为两个分布完全相同；由于分子分母的关系，也让KL散度并不具有对称性。这个可以理解为坐标系的不同；

其实观察上式的后半项，可以看出第一个项其实就是A的熵，第二项就是B在A上的期望；

三、交叉熵： 交叉熵和KL散度公式很相近，如下所示：

其实从这里就可以看出，AB的交叉熵就是A和B的KL散度减去A的熵；

而且对于这两个KL散度和交叉熵来说，如果

S(A)是一个常量，则KL散度和交叉熵时相同的；

对于我们数据标签和训练得到的预测标签来说，初始情况下肯定分布是不同的。我们的目的就是使得预测值和真实值越来越相近，归根到底也就是希望两者的KL散度足够小，也就是：

所以我们可以使用这个来评估模型；

那么我们为什么要用交叉熵而不用KL散度呢，其实我们通过公式就可以看出原因。由于初始值固定，也就是A固定，测试A的熵就是固定的，所以我们求A和B的交叉熵就可以；换句话来说，最小化KL散度，其实就是在最小化交叉熵；

转载于:https://juejin.im/post/5c6a98c46fb9a049b13ec2b5

weixin_34220623

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。