交叉熵:
交叉熵刻画的是实际输出(概率)与期望输出(概率)的距离,也就是交叉熵的值越小,两个概率分布就越接近。假设概率分布p为期望输出,概率分布q为实际输出,H(p,q)为交叉熵,则:
另一种形式:
softmax:神经网络的原始输出不是一个概率值,实质上只是输入的数值做了复杂的加权和与非线性处理之后的一个值而已,Softmax层将其处理为概率输出。
假设神经网络的原始输出为y1,y2,….,yn,那么经过Softmax回归处理之后的输出为:
很显然的是:
而单个节点的输出变成的一个概率值,经过Softmax处理后结果作为神经网络最后的输出。