理解RNN梯度消失和弥散以及LSTM为什么能解决

本文深入探讨RNN中的梯度消失问题,分析为何简单替换激活函数无法解决问题,并介绍LSTM如何通过引入门机制有效地解决这一问题,确保误差以常数形式流动并实现非线性建模。
摘要由CSDN通过智能技术生成

根据RNN的BPTT推导,我们可以得到下面的式子:


而又有:


因此,每一个Sj对Sj-1的偏导都等于tanh‘(..)*W

注意到:tanh的梯度最大只能是1,而更多时候都是趋近于0的饱和状态,当求导得到的jacobian矩阵存在一些元素趋近于0,多个矩阵相乘,会使得梯度很快消失。这时候有人会问,为什么不将tanh换成ReLU呢?这样不就可以解决梯度消失了吗?

确实,换成ReLU在一定程度上可以解决梯度消失的问题,但是:

那为什么同样的方法在RNN中不奏效呢?其实这一点Hinton在它的IRNN论文里面(arxiv:[1504.00941] A Simple Way to Initialize Recurrent Networks of Rectified Linear Units)是很明确的提到的:

  • 7
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值