论文笔记:Long Short-Term Memory

LongShort-Term Memory

摘要

通过recurrent BP方式来学着存储随时间间隔变化的信息会花费很长的时间。我们引进了新奇的,有效的,基于梯度的方法:LSTM(至少在1997年的时候这么评价还算公正)。 且能够解决一些标签比较长的分类任务。

LSTM现在基本会被用在RNN模型中,代替RNN的隐层单元,能够起到很好的长时间记忆效果。现阶段(2017)GRU跟LSTM都是基于门的单元,但是GRU有2个门,计算速度比LSTM(3个门)要快。

引言

RNN共享权重,权重修正速度比较慢,只有短时记忆。
problem 卷积“Back-Propagation Through Time”或者”Real-Time Recurrent Learning”, 误差信号随着反馈网络会趋向于(1)爆炸(2)消失 。 情况(1)会产生摆动权重,情况2 会浪费大量的时间,可能会一点也不工作。
remedy LSTM的提出就是为了解决上面提出的问题

LSTM

  1. Memory cells and gate units
    引进乘法输入单元和乘法输出单元。输入单元是为了保护存储在j中的记忆内容不受不相关输入的微小影响。同时,输出单元是为了保护其他的单元免受当前不相关信号产生的微小影响。
  2. 输入们 输出门 遗忘门
  3. 3.

RNN

RNN能够有效联系上下文信息就是因为他可以长时间记忆。梯度存在爆炸或者消失的问题,因此提出了LSTM。
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
LSTM的backpropagation
使用梯度下降,使用了RTRL和BPTT方法。4

Reference
1. Hochreiter, S, and J. Schmidhuber. “Long short-term memory.” Neural Computation 9.8(1997):1735-1780.
2. Graves, Alex. Long Short-Term Memory. Supervised Sequence Labelling with Recurrent Neural Networks. Springer Berlin Heidelberg, 2012:1735-1780.
3. http://www.jianshu.com/p/9dc9f41f0b29/ 这篇文章很不错


EMMA

SIAT

长短期记忆(long short-term memory)是一种用于建立和训练循环神经网络(Recurrent Neural Networks)的模型,也是一种用于处理序列数据的有效方法。长短期记忆是循环神经网络的一种变种,通过引入门控机制解决了普通循环神经网络中遇到的梯度消失和梯度爆炸的问题。 长短期记忆的核心结构是记忆单元(memory cell),它具有输入门(input gate)、遗忘门(forget gate)和输出门(output gate)三个关键组件。输入门负责决定新的输入信息会被存储到记忆单元中的哪些位置上,遗忘门负责控制哪些过去的记忆应该被遗忘,输出门负责控制从记忆单元中输出的信息。 长短期记忆通过这些门控制记忆单元中的信息流动,可以保留对重要信息的长期记忆,同时也能够快速地遗忘不重要的信息。这种机制使得长短期记忆在处理长序列数据时更加有效,能够捕捉到序列中的长期依赖关系。 长短期记忆的训练使用的是反向传播算法,通过最小化损失函数来更新网络的权重参数。在训练过程中,长短期记忆可以自动学习到序列数据中的模式和规律,从而可以实现对序列数据的预测和生成。 长短期记忆在自然语言处理、语音识别、时间序列预测等领域有着广泛的应用。相比于其他循环神经网络的变种,长短期记忆能够更好地处理长序列数据中的记忆和依赖关系,取得了很好的效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值