交叉熵CE VS MSE

交叉熵常用于分类任务,因为它衡量的是两个分布之间的距离,适合于伯努利分布的假设;而MSE适合回归任务,要求输入与输出一致,基于高斯分布假设。MSE在分类中可能导致梯度饱和,学习速度减慢,而交叉熵则避免了这个问题,且能更好地反映定性特征。
摘要由CSDN通过智能技术生成

区别

  • 分类用交叉熵,回归用mse/mae,前者的假设是伯努利分布,后者假设是高斯分布。
  • CE衡量两个分布的距离,MSE衡量两个变量的距离。分类输出为概率分布,MSE更要求的是输入与输出一样,多用于计算两个东西是否一样。
  • 二者对于不同数据点的梯度不同,这种差异决定了其适用于不同的目标任务。CE比MSE更平缓,CE更强调定性特征而MSE更强调定量特征。

交叉熵可以理解为另一种形式的keller散度,而keller散度是用于衡量两个模型的相似程度,对于回归来说,每一个分类可以看成一个单独的模型,如果分类效果好,意味着模型相关性弱,keller散度也小。从这个角度讲,分类一般选择交叉熵。

为什么MSE损失不适合用于分类?

MSE损失函数不适合最后一层含有Sigmoid或Softmax激活函数的神经网络,平方误差损失函数相对于输出层的导数:
δ ( L ) = − ( y − a ( L ) ) f ′ ( z ( L ) ) \delta^{(L)} = -(y-a^{(L)})f^{'}(z^{(L)}) δ(L)=(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值