深度学习笔记（31）：LSTM一点简要理解

最新推荐文章于 2022-12-04 20:58:17 发布

酸菜火锅bb

最新推荐文章于 2022-12-04 20:58:17 发布

阅读量245

点赞数

分类专栏：吴恩达深度学习笔记神经网络笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43197820/article/details/106334188

版权

笔记同时被 3 个专栏收录

46 篇文章 1 订阅

订阅专栏

吴恩达深度学习笔记

38 篇文章 9 订阅

订阅专栏

38 篇文章 3 订阅

订阅专栏

前言

RNN提供了捕捉序列特性的一种方案，然而由于梯度爆炸或者梯度消失问题，对于句子中距离较长的词汇，RNN由于训练时反向传播的修改从句子末尾到句子开始时已经变得很微弱，以至于难以建立较大的联系，因而RNN在捕捉中长距离句型关系时效果较差。很多研究者就提出了很多种方案在一定程度上良好的解决了这种问题，其中最知名的就是LSTM（1997）和GRM（2014）.

LSTM

在这里插入图片描述
个人认为，要想理解LSTM，首先要明白动机：状态扩展。RNN的问题就在于他由于只有一个状态，所以“长途跋涉”，对于短期敏感，无法长期练习。所以我们要专门建立一个长期记忆的结构，而这个结构又由之前的长期记忆和当下的短期记忆共同决定，所以我们要建立相应的门控。这有利于我们方便摸清里面的连接逻辑。搞清楚训练时候的正向传播，反向传播的关系式。这里这篇文章说得十分详细https://zybuluo.com/hanbingtao/note/581764
之后实质上我们就可以将其封装起来了。相当于双路RNN。搭建起来效果也很好，等我们用它实操之后再来补充。

参考资料

https://zybuluo.com/hanbingtao/note/581764

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。