LSTM 原理

最新推荐文章于 2024-06-04 08:33:51 发布

一个打码的小年轻

最新推荐文章于 2024-06-04 08:33:51 发布

阅读量9.1k

点赞数 3

分类专栏：算法文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42330675/article/details/123684918

版权

算法专栏收录该内容

9 篇文章 3 订阅

订阅专栏

一、lstm介绍

长短时记忆网络(Long Short Term Memory Network, LSTM)，是一种改进之后的循环神经网络，可以解决RNN无法处理长距离的依赖的问题，目前比较流行。

二、理论介绍

2.1长短时记忆网络的思路：

原始 RNN 的隐藏层只有一个状态，即h，它对于短期的输入非常敏感。再增加一个状态，即c，让它来保存长期的状态，称为单元状态(cell state)。

上图是lstm的示意图。在 t 时刻，LSTM 的输入有三个：当前时刻网络的输入值 X_t、上一时刻 LSTM 的输出值 h_t-1、以及上一时刻的单元状态 C_t-1；

LSTM 的输出有两个：当前时刻 LSTM 输出值 h_t、和当前时刻的单元状态 C_t。

关键问题是：怎样控制长期状态 c ？

方法是：使用三个控制开关

第一个开关，负责控制继续保存长期状态c；

第二个开关，负责控制把即时状态输入到长期状态c；

第三个开关，负责控制是否把长期状态c作为当前的LSTM的输出。

如何在算法中实现这三个开关？

方法：用门（gate）

定义：gate 实际上就是一层全连接层，输入是一个向量，输出是一个 0到1 之间的实数向量。

公式为：g(x)=sigmoid(Wx+b)

也就是：

gate 如何进行控制？

方法：用门的输出向量按元素乘以我们需要控制的那个向量

原理：门的输出是 0到1 之间的实数向量，当门输出为 0 时，任何向量与之相乘都会得到 0 向量，这就相当于什么都不能通过；输出为 1 时，任何向量与之相乘都不会有任何改变，这就相当于什么都可以通过。

2.2 LSTM 的前向计算-门计算

LSTM 的关键就是细胞状态，水平线在图上方贯穿运行。细胞状态类似于传送带。直接在整个链上运行，只有一些少量的线性交互。信息在上面流传保持不变会很容易。

一共有 6 个公式

遗忘门（forget gate）:它决定了上一时刻的单元状态 c_t-1 有多少保留到当前时刻 c_t

输入门（input gate）:它决定了当前时刻网络的输入 x_t 有多少保存到单元状态 c_t

输出门（output gate）:控制单元状态 c_t 有多少输出到 LSTM 的当前输出值 h_t

遗忘门的计算为：

遗忘门的计算公式中：

W_f 是遗忘门的权重矩阵，[h_t-1, x_t] 表示把两个向量连接成一个更长的向量，b_f是遗忘门的偏置项，σ 是 sigmoid 函数。

输入门的计算：

根据上一次的输出和本次输入来计算当前输入的单元状态：

当前时刻的单元状态 c_t 的计算：由上一次的单元状态 c_t-1 按元素乘以遗忘门 f_t，再用当前输入的单元状态 c_t 按元素乘以输入门 i_t，再将两个积加和：这样，就可以把当前的记忆 c_t 和长期的记忆 c_t-1 组合在一起，形成了新的单元状态 c_t。由于遗忘门的控制，它可以保存很久很久之前的信息，由于输入门的控制，它又可以避免当前无关紧要的内容进入记忆。

输出门的计算：

三、训练方法

为了最小化训练误差，梯度下降法（Gradient descent）如：应用时序性倒传递算法，可用来依据错误修改每次的权重。梯度下降法在递回神经网络（RNN）中主要的问题初次在1991年发现，就是误差梯度随着事件间的时间长度成指数般的消失。当设置了LSTM 区块时，误差也随着倒回计算，从output影响回input阶段的每一个gate，直到这个数值被过滤掉。因此正常的倒传递类神经是一个有效训练LSTM区块记住长时间数值的方法。

参考文献：

1.LSTM算法+数据预测：LSTM算法+数据预测_1632401541的博客-CSDN博客_lstm算法

2.LSTM原理详解：LSTM原理详解_Wimb的博客-CSDN博客_lstm原理

3.长短期记忆人工神经网络_百度百科

4.理解 LSTM 网络：理解 LSTM 网络 - 简书

5.人人都能看懂的LSTM：人人都能看懂的LSTM - 知乎

一个打码的小年轻

关注

3
点赞
踩
37

收藏

觉得还不错? 一键收藏
0
评论
LSTM 原理

lstm原理
复制链接

扫一扫

专栏目录

一个打码的小年轻 CSDN认证博客专家 CSDN认证企业博客

码龄6年

22: 原创

2万+: 周排名

184万+: 总排名

9万+: 访问

: 等级

741: 积分

6936: 粉丝

65: 获赞

5: 评论

420: 收藏

私信

关注

热门文章

分类专栏

风控 2篇
算法 9篇
规范 3篇
设计 1篇
原理 18篇
选型 1篇
过程 1篇

最新评论

PU-Learning 原理介绍
HHYY_7: 您好想问下，选择可靠负样本什么模型比较好呢
GAT原理
qq_57698063: 博主您好，看了您的这篇博文之后有一个问题想要请教您一下，请问GAT的多头注意力机制每一个机制的权重计算方式可以自定义吗，我好像在您的代码和讲解中没有看到每个head注意力机制的计算公式的定义很抱歉冒昧直接向您请教，如果您能给予一些指导解答困惑的话将不胜感激，万分感谢
地址相似度计算
初淅沥以萧飒: 方法二有没有案例？我希望把地址构造成特征
Oracle数据库命名规范
緣木求魚: 博主，1.7以下为不建议使用类型，这是什么意思，既然不建议使用，那要怎样？
Oracle数据库命名规范
月亮下的猫豆: 感谢博主的精彩分享

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。