神经网络之lstm

最新推荐文章于 2025-10-05 22:19:15 发布

原创

最新推荐文章于 2025-10-05 22:19:15 发布 · 3.5w 阅读

191 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #lstm #人工智能

文章目录

1. LSTM简介
- 1.1 定义与起源
- 1.2 与传统RNN的比较
2. LSTM的结构与工作原理
3. LSTM的数学模型
- 3.1 公式描述
- 3.2 激活函数的选择
4. LSTM的应用领域
5. LSTM的变体
- 5.1 带孔LSTM（Peephole LSTM）
- 5.2 门控循环单元（GRU）
6. LSTM的实现与优化
- 6.1 编码实现
- 6.2 梯度消失与爆炸问题
7. 总结与展望

1. LSTM简介

1.1 定义与起源

长短期记忆网络（Long Short-Term Memory, LSTM）是一种特殊类型的循环神经网络（RNN），由 Hochreiter 和 Schmidhuber 于 1997 年提出。LSTM 旨在解决传统 RNN 在处理长序列数据时遇到的梯度消失或梯度爆炸问题。

LSTM 网络的核心是三个门的机制：遗忘门（forget gate）、输入门（input gate）、输出门（output gate）。这些门通过自适应的方式控制信息的流动，从而实现对长期依赖信息的捕捉。

1.2 与传统RNN的比较

与标准 RNN 相比，LSTM 引入了更为复杂的结构来维护和更新内部状态，即细胞状态（cell state）。标准 RNN 的更新公式为：
$h_t = \tanh(W_{hh} h_{t-1} + W_{xh} x_t + b_h)$
其中，$ h_t$ 是当前时间步的隐藏状态， $x_t$ 是输入， $W$ 和 $b$ 分别是权重和偏置。

LSTM 则通过以下公式更新其细胞状态 $C_t$ 和隐藏状态 $h_t$ ：
$f_t = \sigma(W_{hf} x_t + W_{hf} h_{t-1} + b_f)$
$i_t = \sigma(W_{hi} x_t + W_{hi} h_{t-1} + b_i)$
$\tilde{C}_t = \tanh(W_{hc} x_t + W_{hc} h_{t-1} + b_c)$
$C_t = f_t * C_{t-1} + i_t * \tilde{C}_t$
$h_t = \tanh(C_t)$
$o_t = \sigma(W_{ho} x_t + W_{ho} h_{t-1} + b_o)$
$h_t = o_t * \tanh(C_t)$
其中， $f_t$ 、 $i_t$ 、 $o_t$ 分别是遗忘门、输入门和输出门的激活值， $\tilde{C}_t$ 是候选记忆细胞， $\sigma$ 是 sigmoid 激活函数，* 表示逐元素乘法。

LSTM 的这种设计显著提高了网络在处理长序列数据时的性能，使其成为许多序列建模任务的首选模型。

2. LSTM的结构与工作原理

2.1 记忆单元（Memory Cell）

记忆单元是LSTM网络的核心，负责在整个序列处理过程中保持和更新长期依赖信息。记忆单元的结构相对简单，主要由一个或多个神经元组成，其状态通过时间步传递，仅通过线性方式更新。

2.2 遗忘门（Forget Gate）

遗忘门的目的是决定在每个时间步中，哪些信息应该从记忆单元中被遗忘或保留。它通过以下公式进行计算：
$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$
其中， $\sigma$ 是逻辑激活函数， $W_f$ 和 $b_f$ 分别是遗忘门的权重矩阵和偏置项， $h_{t-1}, x_t]$ 是前一时间步的隐藏状态和当前时间步的输入。