↑ 点击上方【计算机视觉联盟】关注我们
1、交叉熵
交叉熵是分类问题中使用比较广的一种损失函数,刻画了两个概率分布之间的距离。
给定两个概率分布p和q,通过q来表示p的交叉熵为:
交叉熵刻画的是两个概率分布之间的距离,然而神经网络的输出却不一定是一个概率分布。Softmax回归就是一个非常常用的方法,用来将神经网络前向传播得到的结果变成概率分布。
交叉熵刻画的是通过概率分布q来表达概率分布p的困难程度。因为正确答案是希望得到的结果,所以当交叉熵作为神经网络的损失函数时,p代表的是正确答案,q代表的是预测值。交叉熵刻画的是两个概率分布的距离,也就是说交叉熵值越小, 两个概率分布越接近。
图4-10展示了加上Softmax回归的神经网络结构图。
假设原始的神经网络输出,,…,那么经过Sotmax回归处理之后的输出为:
假设有一个分类问题,某个样例的正确答案是(1,0,0)。某模型经过Softmax回归之后的预测答案是(0.5,0.4,0.1),那么这个预测和正确答案之间的交叉熵为: