在介绍交叉熵之前先介绍一些其他的概念。
1、信息量:
用公式-log(p(x))表示信息量的大小,p(x)表示某事件发生的概率,显然信息量与概率成反比
2、信息熵:
信息熵表示信息量的期望,期望的计算方法为:事件发生的概率乘以事件发生的信息量的总和,也就是
I(X) = -p(x)*log(p(x))
3、相对熵(KL散度):
KL散度用来表示2个分布之间的差异,其公式为:KL = - p(x) * log( p(x) / q(x) )求和,展开之后就变为了 KL = 交叉熵 - 信息熵
4、作用:
- 交叉熵常用来衡量2个分布之间的差异,在分类中,用俩衡量预测的分布和真实的分布之间的差异,通过最小化二者之间的差异进行模型参数更新;
- 交叉熵场合softmax一起使用,将模型的预测结果通过softmax归一化到0-1之间