一文读懂LSTM

最新推荐文章于 2025-03-19 11:37:49 发布

莫杨94

最新推荐文章于 2025-03-19 11:37:49 发布

阅读量554

点赞数

分类专栏：自然语言处理文章标签： lstm 自然语言处理深度学习

本文链接：https://blog.csdn.net/suotanyu1595/article/details/120193754

版权

自然语言处理专栏收录该内容

11 篇文章

订阅专栏

一文读懂LSTM

0 从RNN说起
1 普通RNN
2 LSTM
- 2.1 什么是LSTM
- 2.２深入LSTM结构
3 总结

0 从RNN说起

循环神经网络（Recurrent Neural Network，RNN）是一种用于处理序列数据的神经网路。相比一般的神经网络来说，他能够处理序列变化的数据。比如某个单词的意思会因为上下文提到的内容不同而含有不同的涵义，RNN就能很好的处理这样的数据。

1 普通RNN

先介绍一下一般的RNN模型。
其主要的形式如下图所示（图片来源台大李宏毅PPT）：
在这里插入图片描述
这里：
ｘ维当前状态下数据的输入，ｈ表示接收到的上一个节点的输入。
ｙ为当前节点状态下的输入，而 $h^{'}$ 为传递到下一个节点的输出

通过上图可以看出，输出 $h^{'}$ 与ｘ和ｈ的值都相关。
而ｙ则常常使用 $h^{'}$ 投入到一个线性层（主要是进行维度映射）然后使用softmax进行分类得到需要的数据。
对这里的ｙ如何通过 $h^{'}$ 计算得到往往看具体模型的使用方式。
通过序列形式的输入，我们能够得到如下形式的RNN。
在这里插入图片描述

2 LSTM

2.1 什么是LSTM

长短时记忆（Long short-term memory,LSTM）是一种特殊的RNN，主要是为了解决序列训练过程中产生的梯度消失和梯度爆炸问题。简单来说就是相比普通RNN，LSTM能够再更长的序列中有更好的表现。

LSTM结构（图右）和普通RNN的主要输入输出区别如下所示。
在这里插入图片描述
相比与RNN只有一个传递状态 $h^{＇}$ ，LSTM有两个传递状态，一个 $c^{t}$ （cell state），和一个 $h^{t}$ （hidden state）。（Tips：RNN中的 $h^{t}$ 对应LSTM中的 $c^{t}$ ）
其中对于传递下去的 $c^{t}$ 改变得很慢，通常输出得 $c^{t}$ 状态是上一个状态传过来的 $c^{t-1}$ 加上一些数值。
而 $h^{t}$ 则再不同节点下往往会有很大区别。

2.２深入LSTM结构

下面具体对LSTM得内部结构来进行剖析。
首先使用LSTM的当前输入 $x^{t}$ 和上一个状态传递下来的 $h^{t-1}$ 拼接训练得到四个状态。
在这里插入图片描述

其中， $z^{f}$ ， $z^{i}$ ， $z^{o}$ 是由拼接向量乘以权重矩阵之后，再通过一个sigmoid激活函数转换成0-1之间得数值，来作为一种门控状态。而 $z$ 则是将结果通过一个tanh激活函数转化为-1到1 之间得值（这里使用tanh是因为这里是将其作为输入数据，而不是门控信号）。
下面开始进一步介绍这四个状态再LSTM中得使用（重点）：
在这里插入图片描述 $\odot$ 是Hadamard Product，也就是操作矩阵中对应的元素相乘，因此要求两个相乘矩阵是同型的。 $\oplus$ 则代表进行矩阵加法。