lstm 损失降不下去_CS224N笔记(七):梯度消失、LSTM与GRU

本文探讨了RNN中的梯度消失和梯度爆炸问题,以及解决这些问题的LSTM和GRU模型。梯度消失导致远程信息无法有效捕获,而梯度爆炸可通过梯度裁剪解决。LSTM通过门控机制存储长期信息,GRU则是LSTM的简化版本。延伸部分提到,梯度消失问题在深度神经网络中也存在,ResNet和DenseNet等模型通过特殊连接设计改善信息流动。
摘要由CSDN通过智能技术生成

074722b9bea48a732a258f3f5fa8ee09.png

这一讲主要研究RNN中梯度消失以及梯度爆炸问题,以及为解决梯度消失而设计的RNN模型的变种如LSTM,GRU等模型。

梯度消失

RNN理论上是可以捕捉较早的历史信息,但是由于Vanishing Gradient的问题会导致远程信息无法有效的被捕捉到。

RNN的输入、输出及hidden state的关系有如下的公式表示:

并且其损失函数为

所以损失函数相对于W的梯度为

其中

假设矩阵W的最大的本征值也小于1,则t-k越大即其相距越远,其梯度会呈指数级衰减,这一问题被称作vanishing gradient梯度消失,它导致我们无法分辨t时刻与k时刻究竟是数据本身毫无关联还是由于梯度消失而导致我们无法捕捉到这一关联。这就导致了我们只能学习到近程的关系而不能学习到远程的关系,会影响很多语言处理问题的准确度。</

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值