关于交叉熵的个人理解

之前虽然使用过cross-entropy函数,但是并不知道它代表的实际意义,只是知道的其能够进行loss计算,这次从其根源的意义做一个总结,来加深对cross-entropy的理解;

一、熵

对于交叉熵,我们首先要直到熵神马意思;

熵的意义是一个事件A的自信息量,也就是A包含多少信息。对于事件A,越难发生,发生的概率越小,包含的信息量就越大; 例如,中国队世界杯夺冠,巴西队世界杯夺冠,肯定前者包含的信息量最大;

熵的定义如下所示:

可以式子中看出,其也就是所有信息量的期望;之所以要求和,究其原因是时间独立,熵可以叠加。其中p代表的x事件发生的概率。

对于单个事件发生的信息量,可以表示:

由于-log函数的存在,当p趋于0,其值就越大;所以第一个式子也就是多个独立事件的总期望;

二、KL散度

KL散度是用来衡量两个分布之间的不同,其实和欧几里得距离的性质有点像,只不过其研究的是分布之间的不同,也称KL距离。但是注意一点,KL距离没有对称性,a和b的KL距离和b和a的KL距离并不相同;

KL散度的定义如下:

第一个子式为离散情况,后一个为连续情况,不同的只是求不求积分;

如果当Pa=Pb时,则两个事件的分布完全相同,则KL散度等于0,此时可以理解为两个分布完全相同;由于分子分母的关系,也让KL散度并不具有对称性。这个可以理解为坐标系的不同;

其实观察上式的后半项,可以看出第一个项其实就是A的熵,第二项就是B在A上的期望;

三、交叉熵: 交叉熵和KL散度公式很相近,如下所示:

其实从这里就可以看出,AB的交叉熵就是A和B的KL散度减去A的熵;

而且对于这两个KL散度和交叉熵来说,如果

S(A)是一个常量,则KL散度和交叉熵时相同的;

对于我们数据标签和训练得到的预测标签来说,初始情况下肯定分布是不同的。我们的目的就是使得预测值和真实值越来越相近,归根到底也就是希望两者的KL散度足够小,也就是:

所以我们可以使用这个来评估模型;

那么我们为什么要用交叉熵而不用KL散度呢,其实我们通过公式就可以看出原因。由于初始值固定,也就是A固定,测试A的熵就是固定的,所以我们求A和B的交叉熵就可以;换句话来说,最小化KL散度,其实就是在最小化交叉熵;

转载于:https://juejin.im/post/5c6a98c46fb9a049b13ec2b5

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值