深度学习——梯度消失问题

当初学深度学习的时候就看不懂,查网上的资料也讲得不清楚,今天复习的时候又看了一遍,终于明白了,记录一下。

梯度消失的问题要从深度学习的反向传播说起,以神经网络为例,神经网络在反向传播时,每一层权重和偏置的更新都是由后面所有层的导数乘积决定的,其中就包括神经元的线性函数的导数、激活函数的导数。以前常用的激活函数就是sigmoid函数,函数图如下:

                                                                 

        我们可以看到,当激活函数的输入比较大或者比较小时时,它的导数就接近于0了;在反向传播时,激活函数的导数再乘上它后面层的导数,结果也接近于0,前面隐层的权重和偏置就几乎没办法更新了,所以网络就陷入了死胡同,这就是梯度消失问题。

        这也是为什么后来深度学习都改用relu函数做激活函数,而放弃sigmoid函数的原因了。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值