交叉熵CE VS MSE
区别
- 分类用交叉熵,回归用mse/mae,前者的假设是伯努利分布,后者假设是高斯分布。
- CE衡量两个分布的距离,MSE衡量两个变量的距离。分类输出为概率分布,MSE更要求的是输入与输出一样,多用于计算两个东西是否一样。
- 二者对于不同数据点的梯度不同,这种差异决定了其适用于不同的目标任务。CE比MSE更平缓,CE更强调定性特征而MSE更强调定量特征。
交叉熵可以理解为另一种形式的keller散度,而keller散度是用于衡量两个模型的相似程度,对于回归来说,每一个分类可以看成一个单独的模型,如果分类效果好,意味着模型相关性弱,keller散度也小。从这个角度讲,分类一般选择交叉熵。
为什么MSE损失不适合用于分类?
MSE损失函数不适合最后一层含有Sigmoid或Softmax激活函数的神经网络,平方误差损失函数相对于输出层的导数:
δ ( L ) = − ( y − a ( L ) ) f ′ ( z ( L ) ) \delta^{(L)} = -(y-a^{(L)})f^{'}(z^{(L)}) δ(L)=−(