机器学习中的梯度消失问题vanishing gradient

翻译自Nikhil Garg的Quora回答。

梯度消失是使用梯度下降方法的神经网络中出现的问题,其表现是,在反向回馈(backpropagation)中使整个网络难以调节前面几层的参数(Parameter)。当网络的层数越多时,梯度消失表现越明显。

这个问题不是神经网络所带来的,而是由特定的激活函数(activation function)采用梯度下降的方法所带来的。

问题

梯度下降方法通过参数的细小变化来影响整个神经网络的输出。但是如果参数的细小变化不能有效影响神经网络的输出(只带来非常小的改变),整个网络就不能有效的学习,这就是梯度消失问题。

在梯度消失的问题中,神经网络在最前面层的梯度变的非常小,即使前几层的参数变化很多,对神经网络的输出也影响不大。

原因

梯度消失问题取决于所选的激活函数,很多常用的激活函数如t(anh,sigmoid)通过非线性的方法将输入压缩到很小的范围内。例如:sigmoid函数( y = 1 / ( 1 + e ^ -x) )将输入压缩到(0,1)之间。所以即使很大的输入经过激活函数后也只有很小的输出,因此梯度很小。


(f1: sigmoid function)

当多层的非线性激活函数叠加在一起后,情况会变得更糟。例如第一层将一个大区间的输入映射到一个小的区间,下一层会将其映射到一个更小的区间,因此即使第一层的参数变化很大,也不会对影响整个输出。

解决方法

如何解决这样的问题呢?一个常用的方法就是通过Relu函数( y = max (0,x) )


(f2 : Relu function)


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值