直观理解为什么分类问题用交叉熵损失而不用均方误差损失?


博客: blog.shinelee.me | 博客园 | CSDN

交叉熵损失与均方误差损失

常规分类网络最后的softmax层如下图所示,传统机器学习方法以此类比,

https://stats.stackexchange.com/questions/273465/neural-network-softmax-activation

一共有 K K K类,令网络的输出为 [ y ^ 1 , … , y ^ K ] [\hat{y}_1,\dots, \hat{y}_K] [y^1,,y^K],对应每个类别的概率,令label为 [ y 1 , … , y K ] [y_1, \dots, y_K] [y1,,yK]。对某个属于 p p p类的样本,其label中 y p = 1 y_p=1 yp=1 y 1 , … , y p − 1 , y p + 1 , … , y K y_1, \dots, y_{p-1}, y_{p+1}, \dots, y_K y1,,yp1,yp+1,,yK均为0。

对这个样本,交叉熵(cross entropy)损失
L = − ( y 1 log ⁡ y ^ 1 + ⋯ + y K log ⁡ y ^ K ) = − y p log ⁡ y ^ p = − log ⁡ y ^ p \begin{aligned}L &= - (y_1 \log \hat{y}_1 + \dots + y_K \log \hat{y}_K) \\&= -y_p \log \hat{y}_p \\ &= - \log \hat{y}_p\end{aligned} L=(y1logy^1++yKlogy^K)=yplogy^p=logy^p
**均方误差损失(mean squared error,MSE)**为
L = ( y 1 − y ^ 1 ) 2 + ⋯ + ( y K − y ^ K ) 2 = ( 1 − y ^ p ) 2 + ( y ^ 1 2 + ⋯ + y ^ p − 1 2 + y ^ p + 1 2 + ⋯ + y ^ K 2 )

  • 18
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值