大家好,继续理论学习,在我当年的一篇讲softmax和LR回归的博客里
在里面只是简单地讲了交叉熵的公式,但是为什么深度学习当时要取最小的交叉熵来优化参数,其实我没太明白,今天搞明白了,来记录一下。
1.信息量
信息量的大小可以衡量事件的不确定性或发生的惊讶程度。一个事件发生的概率越小则其所含的信息量越大。设事件发生的概率为P(x),则其信息量表示为:
2.信息熵
对于一个随机变量x而言,它的所有可能取值的信息量的期望就称为信息熵,知道是期望我们就可以写出下列表达式:
3.交叉熵
现在有样本集的两种概率分布p和q,其中p是样本的真实分布,q为非真实分布(在深度学习中可以看做是预测分布),如果我们要用非真实分布q来预测样本(对应于得到训练完的样本来进行测试),则是基于分布q的信息量的期望,由于样本来自于分布p,因此期望与真实分布一致