交叉熵损失函数「Cross Entropy Loss」,我们第一印象就是它如下的公式:
大多数情况下都是直接拿来使用就好,但是它是怎么来的?为什么它能表征真实样本标签和预测概率之间的差值?交叉熵函数是否有其它变种?
信息量
事件A:巴西队进入了2018世界杯决赛圈。
事件B:中国队进入了2018世界杯决赛圈。
直觉来说,显而易见事件B的信息量比事件A的信息量要大。究其原因,是因为事件A发生的概率很大,事件B发生的概率很小。所以当越不可能的事件发生了,我们获取到的信息量就越大。越可能发生的事件发生了,我们获取到的信息量就越小。那么信息量应该和事件发生的概率有关。
设X是一个离散型随机变量,X=x0的信息量为:
根据log函数曲线,我们可知,概率越大,信息量越小
熵
熵(entropy)表示随机变量不确定性的度量,熵就是用来表示信息量的期望:
<