论文笔记：Long Short-Term Memory

最新推荐文章于 2025-03-14 21:10:10 发布

Emma-SJ

最新推荐文章于 2025-03-14 21:10:10 发布

阅读量1.5w

点赞数 9

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_17806763/article/details/60957295

版权

本文介绍了LSTM（长短期记忆网络）的基本概念及其如何解决传统RNN（循环神经网络）中梯度消失或爆炸的问题。LSTM通过引入记忆单元及三个门控机制（输入门、输出门和遗忘门），实现了更高效、稳定的学习过程，特别适用于处理长序列数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LongShort-Term Memory

摘要

通过recurrent BP方式来学着存储随时间间隔变化的信息会花费很长的时间。我们引进了新奇的，有效的，基于梯度的方法：LSTM（至少在1997年的时候这么评价还算公正）。且能够解决一些标签比较长的分类任务。

LSTM现在基本会被用在RNN模型中，代替RNN的隐层单元，能够起到很好的长时间记忆效果。现阶段（2017）GRU跟LSTM都是基于门的单元，但是GRU有2个门，计算速度比LSTM（3个门）要快。

引言

RNN共享权重，权重修正速度比较慢，只有短时记忆。
problem 卷积“Back-Propagation Through Time”或者”Real-Time Recurrent Learning”, 误差信号随着反馈网络会趋向于（1）爆炸（2）消失。情况（1）会产生摆动权重，情况2 会浪费大量的时间，可能会一点也不工作。
remedy LSTM的提出就是为了解决上面提出的问题

LSTM

Memory cells and gate units
引进乘法输入单元和乘法输出单元。输入单元是为了保护存储在j中的记忆内容不受不相关输入的微小影响。同时，输出单元是为了保护其他的单元免受当前不相关信号产生的微小影响。
输入们输出门遗忘门
3.

RNN

RNN能够有效联系上下文信息就是因为他可以长时间记忆。梯度存在爆炸或者消失的问题，因此提出了LSTM。
这里写图片描述

LSTM的backpropagation
使用梯度下降，使用了RTRL和BPTT方法。4

Reference
1. Hochreiter, S, and J. Schmidhuber. “Long short-term memory.” Neural Computation 9.8(1997):1735-1780.
2. Graves, Alex. Long Short-Term Memory. Supervised Sequence Labelling with Recurrent Neural Networks. Springer Berlin Heidelberg, 2012:1735-1780.
3. http://www.jianshu.com/p/9dc9f41f0b29/ 这篇文章很不错

EMMA

SIAT

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。