长短期记忆（Long Short-Term Memory, LSTM）网络

six.学长

于 2024-06-26 19:01:12 发布

阅读量882

点赞数 35

分类专栏：机器学习深度学习文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/m0_51200050/article/details/139996454

版权

62 篇文章 0 订阅

订阅专栏

31 篇文章 0 订阅

订阅专栏

长短期记忆（Long Short-Term Memory, LSTM）网络是一种特殊的循环神经网络（RNN），用于解决标准RNN在处理长序列时的梯度消失和梯度爆炸问题。LSTM通过引入门机制来控制信息流动，从而能够捕捉更长时间范围内的依赖关系。

LSTM 单元由三个主要的门组成：遗忘门、输入门和输出门。每个门都包含一个 sigmoid 激活函数，用于确定信息的通过量。LSTM 的记忆细胞状态 $C_t$ 可以看作一个传输带，它可以直接流向下一时间步，只有少量线性交互，从而确保梯度可以很好地传播。下面是详细的结构和公式：

遗忘门决定丢弃多少以前的记忆细胞状态 $C_{t-1}$ ：

$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$

其中：
- $\sigma$ 是 sigmoid 激活函数。
- $W_f$ 是权重矩阵， $b_f$ 是偏置项。
- $h_{t-1}$ 是前一个时间步的隐藏状态， $x_t$ 是当前时间步的输入。

输入门决定更新多少当前的记忆细胞状态：

$i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)$

候选的记忆细胞状态：

$\tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)$

其中：
- $W_i$ 和 $W_C$ 是权重矩阵， $b_i$ 和 $b_C$ 是偏置项。
- $\tanh$ 是双曲正切激活函数。

结合遗忘门和输入门，更新记忆细胞状态：

$C_t = f_t \cdot C_{t-1} + i_t \cdot \tilde{C}_t$

输出门决定当前隐藏状态 $h_t$ 的输出：

$o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)$

最终的隐藏状态：

$h_t = o_t \cdot \tanh(C_t)$

假设我们有一个简单的输入序列： $x_1, x_2$ ，它们的值分别是： $x_1 = 0.5$ 和 $x_2 = 0.8$ 。我们通过 LSTM 单元来计算输出。

初始状态：
- 初始隐藏状态 $h_0 = 0$
- 初始记忆细胞状态 $C_0 = 0$
权重和偏置（假设为已知值）：
- $W_f = 0.1, b_f = 0.1$
- $W_i = 0.2, b_i = 0.2$
- $W_C = 0.3, b_C = 0.3$
- $W_o = 0.4, b_o = 0.4$
第一个时间步 $x_1 = 0.5$ ：

遗忘门：
$f_1 = \sigma(0.1 \cdot [0, 0.5] + 0.1) = \sigma(0.05 + 0.1) = \sigma(0.15) \approx 0.537$
输入门：
$i_1 = \sigma(0.2 \cdot [0, 0.5] + 0.2) = \sigma(0.1 + 0.2) = \sigma(0.3) \approx 0.574$
候选记忆细胞状态：
$\tilde{C}_1 = \tanh(0.3 \cdot [0, 0.5] + 0.3) = \tanh(0.15 + 0.3) = \tanh(0.45) \approx 0.422$
更新记忆细胞状态：
$C_1 = 0.537 \cdot 0 + 0.574 \cdot 0.422 \approx 0.242$
输出门：
$o_1 = \sigma(0.4 \cdot [0, 0.5] + 0.4) = \sigma(0.2 + 0.4) = \sigma(0.6) \approx 0.645$
隐藏状态：
$h_1 = 0.645 \cdot \tanh(0.242) \approx 0.645 \cdot 0.237 \approx 0.153$

遗忘门：
$f_2 = \sigma(0.1 \cdot [0.153, 0.8] + 0.1) = \sigma(0.1 \cdot 0.953 + 0.1) = \sigma(0.195) \approx 0.548$
输入门：
$i_2 = \sigma(0.2 \cdot [0.153, 0.8] + 0.2) = \sigma(0.2 \cdot 0.953 + 0.2) = \sigma(0.391) \approx 0.596$
候选记忆细胞状态：
$\tilde{C}_2 = \tanh(0.3 \cdot [0.153, 0.8] + 0.3) = \tanh(0.3 \cdot 0.953 + 0.3) = \tanh(0.586) \approx 0.528$
更新记忆细胞状态：
$C_2 = 0.548 \cdot 0.242 + 0.596 \cdot 0.528 \approx 0.133 + 0.315 \approx 0.448$
输出门：
$o_2 = \sigma(0.4 \cdot [0.153, 0.8] + 0.4) = \sigma(0.4 \cdot 0.953 + 0.4) = \sigma(0.781) \approx 0.686$
隐藏状态：
$h_2 = 0.686 \cdot \tanh(0.448) \approx 0.686 \cdot 0.42 \approx 0.288$

通过这个具体的数值例子，我们可以看到 LSTM 如何通过遗忘门、输入门和输出门来更新隐藏状态和记忆细胞状态，从而在序列建模中捕捉长时间范围内的依赖关系。这种结构有效解决了标准 RNN 的梯度消失问题，使其在处理语言建模和机器翻译等任务时表现优异。

关注

专栏目录