快速入门LSTM

最新推荐文章于 2025-05-23 11:19:21 发布

Shell-We

最新推荐文章于 2025-05-23 11:19:21 发布

阅读量1.1k

点赞数 1

分类专栏：深度学习文章标签：深度学习 lstm

本文链接：https://blog.csdn.net/ProgrammersFighting/article/details/117675591

版权

深度学习专栏收录该内容

8 篇文章

订阅专栏

快速入门LSTM

一、引言
二、RNN基本结构
2.1 普通DNN与RNN的区别
2.1 RNN存在的缺点
三、RNN到LSTM
3.1 遗忘门
3.2 记忆门(输入门)
3.3 细胞状态
3.4 输出门
四、参考文献

一、引言

LSTM是RNN的变体，因此在了解LSTM之前我们有必要先了解一下RNN的基本结构。

二、RNN基本结构

2.1 普通DNN与RNN的区别

普通的DNN结构一般包括：输入层，隐藏层，和输出层。但是隐藏层的输出和输入之间无反馈。DNN结构如下图所示。

与DNN不同的是RNN会将隐藏层的输出保留至隐状态(

h_t

)，并在每次隐藏层输出后更新隐状态(

h_t

)，RNN结构如下图所示。

由上图可知， $t$ 时刻隐藏层的输出 $\textbf{h}_t$ 不仅与当前时刻的输入 $\textbf{x}_{(t)}$ 有关还与上一时刻的隐状态有关( $\textbf{h}_{t-1}$ )，则RNN的隐藏层输出计算公式为： $\textbf{h}_{(t)}= \sigma(\textbf{U}\textbf{x}_{(t)}+\textbf{Wh}_{(t-1)}+\textbf{b})$
为了加深理解，我们在这里举个栗子，以上图所示RNN结构所示，仅包含一层隐藏层结构，初始化条件如下：
输入： $\textbf{x}=\left\{ \begin{bmatrix} 1 \\ 1 \end{bmatrix}, \begin{bmatrix} 1\\1 \end{bmatrix}, \begin{bmatrix} 2\\2 \end{bmatrix}\right\}$

权重： $\textbf{U}=\begin{bmatrix} 1&1 \\1 &1 \end{bmatrix}\quad$

偏置： $\textbf{b}=\begin{bmatrix} 0\\0 \end{bmatrix}\quad$

隐状态： $\textbf{h}_{0}=\begin{bmatrix} 0\\0 \end{bmatrix}\quad$
备注：隐藏层和输出层均为线性激活函数。

第一次隐藏层的输入： $\textbf{x}_1=\begin{bmatrix} 1 \\ 1 \end{bmatrix}，h_{0}=\begin{bmatrix} 0\\0 \end{bmatrix}$

第一次更新隐状态以及输出层的输出：
$h_1=\sigma(\textbf{x}_{(1)}^{T}\textbf{U}+\textbf{h}_{(0)}^{T}\textbf{W}+\textbf{b})=\begin{bmatrix} (1*1+1*1)+(0*1+0*1)=2 \\(1*1+1*1)+(0*1+0*1)=2\end{bmatrix}=\begin{bmatrix} 2 \\ 2 \end{bmatrix}$

$y_1=\sigma(\textbf{h}_{(1)}^{T}\textbf{W}+\textbf{b})=\begin{bmatrix} (2*1+2*1)=4 \\(2*1+2*1)=4\end{bmatrix}=\begin{bmatrix} 4\\ 4 \end{bmatrix}$

第二次隐藏层的输入： $\textbf{x}_2=\begin{bmatrix} 1 \\ 1 \end{bmatrix}，h_{1}=\begin{bmatrix} 2\\2 \end{bmatrix}$
第二次隐藏层的输出：
$h_2=\sigma(\textbf{x}_{(2)}^{T}\textbf{U}+\textbf{h}_{(1)}^{T}\textbf{W}+\textbf{b})=\begin{bmatrix} (1*1+1*1)+(2*1+2*1)=6 \\(1*1+1*1)+(2*1+2*1)=6\end{bmatrix}=\begin{bmatrix} 6 \\ 6 \end{bmatrix}$

$y_2=\sigma(\textbf{Wh}_{(2)}^{T}+\textbf{b})=\begin{bmatrix} (6*1+6*1)=4 \\(6*1+6*1)=4\end{bmatrix}=\begin{bmatrix} 6\\6 \end{bmatrix}$

第三次隐藏层的输入： $\textbf{x}_3=\begin{bmatrix} 2 \\ 2 \end{bmatrix}，h_{2}=\begin{bmatrix} 2\\2 \end{bmatrix}$
第三次隐藏层的输出：
$h_3=\sigma(\textbf{x}_{(3)}^{T}\textbf{U}+\textbf{h}_{(3)}^{T}\textbf{W}+\textbf{b})=\begin{bmatrix} (2*1+2*1)+(6*1+6*1)=16 \\(2*1+2*1)+(6*1+6*1)=6\end{bmatrix}=\begin{bmatrix} 6 \\ 6 \end{bmatrix}$

$y_3=\sigma(\textbf{Wh}_{(3)}^{T}+\textbf{b})=\begin{bmatrix} (16*1+16*1)=32 \\(16*1+16*1)=32\end{bmatrix}=\begin{bmatrix} 32\\32 \end{bmatrix}$

2.1 RNN存在的缺点

会造成梯度消失或者是梯度爆炸。
从上面的例子可以看出当输入序列很长时，很久以前的输入对当前时刻的网络影响很小。

三、RNN到LSTM

将RNN结构延时间轴上展开得到如下图所示结构：

为了克服RNN存在的缺点，因此在RNN的结构基础上引入了门控机制和细胞状态 $C_t$ 得到了长短期记忆网络(Long Short-Term Memory, LSTM)，它能有效的克服RNN存在的缺点。LSTM的结构如下图所示。

3.1 遗忘门

遗忘门：选择要遗忘的信息，输入为前一时刻的隐层状态 $h_{t-1}$ 和当前时刻输入 $x_t$ ，输出为 $f_t$ 。遗忘门结构如下图所示。

遗忘门的更新公式为： $f_t=\sigma(h_{t-1}*W_f+x_t*U_f+b_f)$

3.2 记忆门(输入门)

记忆门(输入门)：选择要记忆的信息，输入为前一时刻的隐层状态 $h_{t-1}$ ，当前时刻的输入 $x_t$ , 输出： $i_t$ ，临时细胞状态 $\tilde{C}$ 。记忆门结构如下所示。

记忆门的更新公式为： $\left\{\begin{aligned}\textbf{i}_t&=\sigma(\textbf{W}_i\textbf{h}_{t-1}+\textbf{U}_i\textbf{x}_t+\textbf{b}_i) \\ \tilde{C}&=tanh(\textbf{W}_c\textbf{h}_{t-1}+\textbf{U}_c\textbf{x}_{t}+\textbf{b}_c\end{aligned}\right.$

3.3 细胞状态

细胞状态：存储需要重点记忆的信息。细胞状态结构如下图所示。

细胞状态的更新公式为： $C_t=f_{t}*C_{t-1}+i_t*\tilde{C}_{t}$

3.4 输出门

输入为前一时刻的隐层状态 $h_{t-1}$ ，当前时刻的输入 $x_{t}$ ，当前时刻细胞状态 $C_t$ 。输出为：输出门的值和隐层状态。输出为：输出门的值 $o_t$ 和隐层状态 $h_t$ 。输出门的结构如下图所示。

输出门更新公式为： $\left\{\begin{aligned}\textbf{o}_t&=\sigma(\textbf{W}_o\textbf{h}_{t-1}+\textbf{U}_o\textbf{x}_t+\textbf{b}_o) \\ \textbf{h}_t&=\textbf{o}_t\ast tanh(C_t)\end{aligned}\right.$