深度学习笔记(31):LSTM一点简要理解

前言

RNN提供了捕捉序列特性的一种方案,然而由于梯度爆炸或者梯度消失问题,对于句子中距离较长的词汇,RNN由于训练时反向传播的修改从句子末尾到句子开始时已经变得很微弱,以至于难以建立较大的联系,因而RNN在捕捉中长距离句型关系时效果较差。很多研究者就提出了很多种方案在一定程度上良好的解决了这种问题,其中最知名的就是LSTM(1997)和GRM(2014).

LSTM

在这里插入图片描述
个人认为,要想理解LSTM,首先要明白动机:状态扩展。RNN的问题就在于他由于只有一个状态,所以“长途跋涉”,对于短期敏感,无法长期练习。所以我们要专门建立一个长期记忆的结构,而这个结构又由之前的长期记忆和当下的短期记忆共同决定,所以我们要建立相应的门控。这有利于我们方便摸清里面的连接逻辑。搞清楚训练时候的正向传播,反向传播的关系式。这里这篇文章说得十分详细https://zybuluo.com/hanbingtao/note/581764
之后实质上我们就可以将其封装起来了。相当于双路RNN。搭建起来效果也很好,等我们用它实操之后再来补充。

参考资料

https://zybuluo.com/hanbingtao/note/581764

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值