之前虽然使用过cross-entropy函数,但是并不知道它代表的实际意义,只是知道的其能够进行loss计算,这次从其根源的意义做一个总结,来加深对cross-entropy的理解;
一、熵
对于交叉熵,我们首先要直到熵神马意思;
熵的意义是一个事件A的自信息量,也就是A包含多少信息。对于事件A,越难发生,发生的概率越小,包含的信息量就越大; 例如,中国队世界杯夺冠,巴西队世界杯夺冠,肯定前者包含的信息量最大;
熵的定义如下所示:
可以式子中看出,其也就是所有信息量的期望;之所以要求和,究其原因是时间独立,熵可以叠加。其中p代表的x事件发生的概率。对于单个事件发生的信息量,可以表示:
由于-log函数的存在,当p趋于0,其值就越大;所以第一个式子也就是多个独立事件的总期望;二、KL散度
KL散度是用来衡量两个分布之间的不同,其实和欧几里得距离的性质有点像,只不过其研究的是分布之间的不同,也称KL距离。但是注意一点,KL距离没有对称性,a和b的KL距离和b和a的KL距离并不相同;
KL散度的定义如下:
第一个子式为离散情况,后一个为连续情况,不同的只是求不求积分;
如果当Pa=Pb时,则两个事件的分布完全相同,则KL散度等于0,此时可以理解为两个分布完全相同;由于分子分母的关系,也让KL散度并不具有对称性。这个可以理解为坐标系的不同;
其实观察上式的后半项,可以看出第一个项其实就是A的熵,第二项就是B在A上的期望;
三、交叉熵: 交叉熵和KL散度公式很相近,如下所示:
其实从这里就可以看出,AB的交叉熵就是A和B的KL散度减去A的熵;
而且对于这两个KL散度和交叉熵来说,如果
S(A)是一个常量,则KL散度和交叉熵时相同的;对于我们数据标签和训练得到的预测标签来说,初始情况下肯定分布是不同的。我们的目的就是使得预测值和真实值越来越相近,归根到底也就是希望两者的KL散度足够小,也就是:
所以我们可以使用这个来评估模型;
那么我们为什么要用交叉熵而不用KL散度呢,其实我们通过公式就可以看出原因。由于初始值固定,也就是A固定,测试A的熵就是固定的,所以我们求A和B的交叉熵就可以;换句话来说,最小化KL散度,其实就是在最小化交叉熵;