分类问题中,常选择交叉熵损失函数而不是MSE损失函数

均方误差(Mean Square Error, MSE)损失函数:

L=\frac{1}{2N}\sum_{i=i}^{N}{(y-\widehat{y})}^2 \ \ \ \ \ \ \ \ \ \ \ (1)

w求偏导(对b求导类似):

\begin{align*} {\frac{\partial L}{\partial w}} &= -\frac{1}{N}\sum_{i=1}^{N}(y-\widehat{y})\cdot \frac{\partial \widehat{y}}{\partial w} \ \ \ \ \ \ \ \ \ (2) \end{align*}

交叉熵损失函数:

 L=-\frac{1}{N}\sum_{i=1}^{N}[ylog\widehat{y} + (1-y)log(1-\widehat{y})]\ \ \ \ \ (3)                                    

w求偏导(对b求导类似):

\begin{align*} {\frac{\partial L}{\partial w}} &= -\frac{1}{N}\sum_{i=1}^{N}[y\cdot \frac{1}{\widehat{y}}\cdot \frac{\partial \widehat{y}}{\partial x}+(1-y)\cdot \frac{-1}{1-\widehat{y}}\cdot \frac{\partial \widehat{y}}{\partial x}]\\ &= -\frac{1}{N}\sum_{i=1}^{N}[\frac{y-\widehat{y}}{\widehat{y}\cdot (1-\widehat{y})}\cdot \frac{\partial \widehat{y}}{\partial w}]\\ &=-\frac{1}{N}\sum_{i=1}^{N}[(y-\widehat{y})\cdot x_{_{i}}] \ \ \ \ \ \ \ \ (4) \end{align*}

ps:以上公式中,激活函数取sigmod激活函数

参数更新过程:

w:=w-\lambda \cdot \frac{\partial L}{\partial w} \ \ \ \ \ \ \ \ (5)

对比公式(2)和(4)可知:

MSE损失函数在参数更新的过程会依赖激活函数的偏导数,当激活函数取sigmod函数的时候,其偏导数在自变量很大或很小的时候为0,使得训练过程中网络参数无更新。

而交叉熵损失函数在参数更新的过程中不依赖激活函数的偏导数,不存在MSE的问题。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值