交叉熵描述了两个概率分布之间的距离,当交叉熵越小说明二者之间越接近。尽管交叉熵刻画的是两个概率分布之间的距离,但是神经网络的输出却不一定是一个概率分布。为此我们常常用Softmax回归将神经网络前向传播得到的结果变成概率分布。
softmax常用于多分类过程中,它将多个神经元的输出,归一化到( 0, 1) 区间内,因此Softmax的输出可以看成概率,从而来进行多分类。
假设我们有一个包含k个元素的数组V,i表示V中的第i个元素,那么这i个元素的softmax输出就是:
简单复习了Softmax,开始进入主题:损失函数为什么要用Cross Entropy Loss。
出于直觉,人们会觉得可以使用classification error来做损失函数:
如果仅仅从2 个模型的 classification error 来判断,那这两个模型性能相同,但实际情况是:模型 2 要明显优于模型 1。所以说,classification error 很难精确描述模型与理想模型之间的距离。
如果使用 ACE ( average cross-entropy error )
首