通俗理解LSTM

最新推荐文章于 2025-05-07 05:00:00 发布

tinstone

最新推荐文章于 2025-05-07 05:00:00 发布

阅读量3.7k

点赞数 30

文章标签： lstm rnn 人工智能

本文链接：https://blog.csdn.net/FutureStone/article/details/146607168

版权

文章目录

1. 什么是LSTM
2. 公式解析
3. LSTM优缺点与适用场景
4. 参考

1. 什么是LSTM

LSTM（长短时记忆网络，Long Short-Term Memory）专门用来处理「时间序列」数据的神经网络。
LSTM 比普通的神经网络厉害的地方：
- 能记住长时间的过去信息（比如今天的股价可能受上个月的趋势影响）
- 能忘掉无关的信息（比如 10 年前的股价对今天的预测没啥用）
- 可以自动学习哪些信息重要，哪些可以忽略
LSTM 主要由遗忘门、输入门、输出门这三部分组成（如何结合LSTM的数据流图也可以将记忆单元作为其中的一部分）：
- 遗忘门：决定要丢弃哪些过去的信息（比如太久的数据就不管了）
- 输入门：决定要记住哪些新的信息
- 输出门：决定最终输出什么信息
- 记忆单元：对历史数据进行记忆存储

2. 公式解析

LSTM 是 RNN 的一种改进版本，专门用来处理时间序列数据，解决普通 RNN由于梯度消失和梯度爆炸而引发的容易遗忘远程信息的缺点。

2.1 传统RNN

在传统的 RNN 中，隐状态 $h_t$ 是根据当前输入 $x_t$ 和上一时刻的隐状态 $h_{t-1}$ 计算得到的：
$h_t = tanh(W_hh_{t-1} + W_xx_t + b_h)$

$h_t$ : 是当前时刻的隐状态
$x_t$ ：当前输入
$W_h、W_x$ ：是可训练的权重矩阵
$b_h$ ：偏置项
$t anh (*)$ ：激活函数

RNN 存在梯度消失和梯度爆炸问题，导致无法学习长期依赖关系。因此，LSTM 通过门控机制来解决这个问题。

2.2 LSTM的公式

LSTM 通过**三个门（遗忘门、输入门、输出门）和一个记忆单元（Cell State）**来控制信息的流动，使得网络能够记住长期信息，同时避免梯度消失问题。
在这里插入图片描述

公式汇总（可以按照后续遗忘门、输入门、记忆单元、输出门进行记忆）

$f_t = \sigma(x_tW_{xf} + h_{t-1}W_{hf} + b_f)$

$i_t = \sigma(x_tW_{xi}+h_{t-1}W_{hi} + b_i)$

$\tilde{C}_t = tanh(x_tW_{xc} + h_{t-1}W_{hc} + b_c)$

$C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$

$o_t = \sigma(x_tW_{xo} + h_{t-1}W_{ho} + b_o)$

$h_t = o_t \odot tanh(C_t)$

维度变化

根据LSTM 公式，我们来细化一下维度的变化：假设有 $h$ 个隐藏单元，批量大小为 $n$ ，输入维度为 $d$ ，因此：
- 输入 $x_t$ 的维度为 $\times d$
- 上一时刻隐状态 $h_{t-1}$ 的维度 $\times h$
- 遗忘门 $f_t$ 、输入门 $i_t$ 、输出门 $o_t$ 的维度均为 $\times h$
- $\tilde{C}_t,C_t$ 的维度均为 $\times h$
- 模型参数 $W_{xi},W_{xf},W_{xo}$ 的维度均为 $\times h$
- 模型参数 $W_{hi},W_{hf},W_{ho}$ 的维度均为 $\times h$
- 模型参数 $b_{i},b_{f},b_{o},b_{c}$ 的维度为 $\times h$
其他说明
- 遗忘门、输入门、输出门：均有 $s i g m o i d$ 函数激活，门控输出值都在 $(0, 1)$ 之间的值
- 候选记忆单元：与遗忘门、输入门、输出门的计算类似，但是使用 $t anh$ 作为激活函数，使得输出值范围为 $(- 1, 1)$
- LSTM 引入了记忆单元，有些文献认为其是隐状态的一种特殊类型，他与隐状态具有相同的形状，设计的目的用于记录附加的记忆信息
  - 记忆单元：由遗忘门、输入门控制，引入这种设计师为了缓解梯度消失和梯度爆炸的问题，并更好地捕获序列中长距离依赖关系
- 隐状态
  - 由输出门控制，在LSTM中，它仅仅是记忆单元的 $t anh$ 的门控版本，确保了隐状态的值始终位于 $(- 1, 1)$ 区间之间
  - 输出门接近1，就能够有效地将所有记忆信息传递给预测部分
  - 输出门接近0，我们只保留记忆单元内的所有信息，而不需要更新隐状态

2.2.1 遗忘门

公式

$f_t = \sigma(x_tW_{xf} + h_{t-1}W_{hf} + b_f)$

参数解释
- $f_t$ ：遗忘门的输出（0-1之间的值）
- $W_{x_f},W_{hf},b_f$ ：遗忘门的权重和偏置
- $h_{t-1}$ ：上一时刻的隐藏状态
- $x_t$ ：当前时刻的输入
- $\sigma(*)$ ：sigmoid激活函数，用于输出 0-1 之间的概率值，决定遗忘多少信息
作用
- 如果 $f_t$ 近似为0，则表示遗忘过去信息
- 如果 $f_t$ 近似为1，则表示完全保留过去信息

2.2.2 输入门

公式
$i_t = \sigma(x_tW_{xi}+h_{t-1}W_{hi} + b_i)$

$\tilde{C}_t = tanh(x_tW_{xc} + h_{t-1}W_{hc} + b_c)$
参数解释
- $i_t$ ：输入门的输出（0-1之间的值），决定当前输入信息的重要性
- $\tilde{C}_t$ ：候选记忆单元状态，用 $t anh$ 激活，使其取值为 $(- 1, 1)$
- $W_{xi},W_{hi},W_{xc},W_{hc},b_i,b_c$ ：可训练的模型参数
作用
- $i_t$ ：控制新信息的引入程度
- $\tilde{C}_t$ ：是新加入的候选记忆信息

2.2.3 记忆单元更新

公式
$\tilde{C}_t = tanh(x_tW_{xc} + h_{t-1}W_{hc} + b_c)$
参数解释
- $C_t$ ：当前时刻的记忆单元状态
- $\odot$ ：代表逐元素相乘（Hadamard 乘积）
- $W_{xc},W_{hc},b_c$ ：可训练的模型参数
作用
- 上一时刻的记忆单元信息 $C_{t-1}$ 经过 $f_t$ 处理后，决定要保留多少记忆信息
- 新信息（候选记忆单元） $\tilde{C}_t$ 经过 $i_t$ 处理后，决定要新加入多少信息到记忆单元中

2.2.4 输出门

公式
$o_t = \sigma(x_tW_{xo} + h_{t-1}W_{ho} + b_o)$

$h_t = o_t \odot tanh(C_t)$
参数解释
- $o_t$ ：控制 LSTM 单元的输出信息量
- $h_t$ ：当前的隐状态，也是输出
- $W_{xo},W_{ho},b_o$ ：可训练的模型参数
作用
- 用 $o_t$ 控制哪些信息最终影响输出
- 用 $tanh(C_t)$ 让输出新信息保持在 $(- 1, 1)$ 范围内