【神经网络】LSTM理论介绍

沐兮Krystal

已于 2022-07-09 22:27:10 修改

阅读量1.7k

点赞数 1

文章标签： lstm 神经网络 rnn

于 2022-07-08 20:51:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/GW_Krystal/article/details/125684889

版权

LSTM作为一种特殊的RNN，旨在处理长期依赖问题。当RNN处理间隔较大的相关信息时，其学习能力会减弱。LSTM通过门控机制，包括遗忘门、输入门和输出门，有效地控制细胞状态，从而保留和更新关键信息。双向循环神经网络（BRNN）则同时考虑了序列的前后信息，通过两个反向传播的RNN增强模型的表达能力。BiLSTM结合前向和后向LSTM，进一步提升捕捉序列信息的能力。

摘要由CSDN通过智能技术生成

Recurrent Neural Networks

RNN可以看做是同一神经网络的多次复制，每个神经网络模块会把消息传递给下一个。
在这里插入图片描述
LSTM是一种特别的RNN。

长期依赖问题（Long-Term Dependencies）

相关的信息和预测的词位置之间的间隔非常小时，RNN可以学会使用先前的信息；
当间隔不断增大时，RNN会丧失学习到连接如此远的信息的能力。
在这里插入图片描述

LSTM 网络

Long Short Term 网络可以学习长期依赖信息。
所有RNN都具有一种重复神经网络模块的链式的形式，在标准的RNN中，这个重复的模块只有一个非常简单的结构，例如一个tanh层。
在这里插入图片描述
LSTM中的重复模块包含四个交互的层。

LSTM的核心思想

LSTM的关键是细胞状态，水平线在图上方贯穿运行。
在这里插入图片描述

门：让信息选择式通过

包含一个sigmoid神经网络层和一个pointwise乘法操作。
在这里插入图片描述
Sigmoid层输出0到1之间的数值，描述每个部分有多少量可以通过。
LSTM有3个门，来保护和控制细胞状态。

第一步：决定从细胞状态中丢弃什么信息

通过忘记门层完成，该门会读取 $h_{t-1}$ 和 $x_t$ ，输出一个在0到1之间的数值给每个在细胞状态 $C_{t-1}$ 中的数字。（1表示“完全保留”，0表示“完全舍弃”）

举个例子：在语言模型中，细胞状态可能包含当前主语的性别，因此正确的代词可以被选择出来，而当遇到新的主语，我们希望它可以忘记旧的主语。

第二步：决定什么样的新信息被存放在细胞状态中

包含两个部分：

输入门层（sigmoid层）决定什么值将要更新
tanh层创建一个新的候选值向量 $\tilde{C}_{t}$ ，会被加到状态中
在语言模型的例子中：
我们需要增加新的主语的性别到细胞状态中，来替代旧的需要忘记的主语。

第三步：确定输出什么值

首先运行一个sigmoid层来确定细胞状态的哪个部分将输出出去
接着把细胞状态通过tanh进行处理（得到-1到1之间的值）
然后两者相乘

双向循环神经网络（BRNN)

BRNN有两个RNN上下叠加在一起组成。
在这里插入图片描述
对每个时刻t，输入会同时提供给两个方向相反的RNN，输出由这两个单向RNN共同决定。

BiLSTM

前向的LSTM与后向的LSTM结合成BiLSTM。
在这里插入图片描述

参考资料：

https://zhuanlan.zhihu.com/p/40119926
https://zhuanlan.zhihu.com/p/47802053
https://blog.csdn.net/SunJW_2017/article/details/82837072

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。