12.3 门控循环单元：简化LSTM与计算效率

原创

于 2025-12-21 16:44:16 发布 · 288 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #机器学习 #数据挖掘 #人工智能 #开发语言

12.3 门控循环单元：简化LSTM与计算效率

门控循环单元（Gated Recurrent Unit， GRU）由Cho等人于2014年提出，是在长短期记忆网络（LSTM）基础上发展而来的一种重要的循环神经网络（RNN）变体[1]。其核心设计目标是在保留LSTM捕获长程依赖能力的前提下，通过简化门控机制和合并内部状态来减少模型参数量与计算复杂度，从而获得更高的计算效率和更快的训练收敛速度。GRU因其简洁、高效的特性，在序列建模任务中得到了广泛应用，并常被作为与LSTM比较的基准模型。

12.3.1 设计动机：对LSTM的简化与重构

LSTM通过引入输入门、遗忘门、输出门以及独立的细胞状态（Cell State），成功解决了传统RNN的梯度消失问题。然而，其结构相对复杂，包含三个Sigmoid层、一个 $\tanh$ 层以及两个状态向量（隐藏状态 $h_t$ 和细胞状态 $C_t$ ），导致参数量较多，计算开销较大。

GRU的设计哲学源于一个关键问题：能否用更少的门控和状态来实现与LSTM相当的性能？ 其简化思路主要体现在两个方面：

门控数量的精简：将LSTM的输入门和遗忘门合并为一个单一的更新门。该门同时负责控制历史信息的保留程度和新信息的纳入程度，简化了信息流的决策过程。
状态向量的统一：取消了独立的细胞状态 $C_t$ ，将长期记忆和短期记忆的功能合并到单一的**隐藏状态 $h_t$ **中。这意味着 $h_t$ 同时承担了LSTM中 $h_t$ （短期记忆/输出）和 $C_t$ （长期记忆）的角色。

这种设计使GRU的结构更加紧凑。下图直观对比了LSTM与GRU单元的内部结构差异：

LSTM: [输入门, 遗忘门, 输出门, 细胞状态C, 隐藏状态h]
        |         |        |         |           |
        \_________整合________/         \____合并____/
                   V                           V
GRU:          [更新门, 重置门, 隐藏状态h]

通过上述简化，一个标准的GRU单元通常比一个LSTM单元减少约25%-33%的参数，这直接带来了内存占用降低和每次前向/反向传播计算量减少的优势。

12.3.2 核心机制：更新门与重置门

GRU通过两个门控向量来调控内部信息流：更新门和重置门。

12.3.2.1 更新门

更新门 $z_t$ 决定了当前时刻应将多少过去隐藏状态 $h_{t-1}$ 的信息保留到新的隐藏状态 $h_t$ 中，同时也就决定了应纳入多少候选隐藏状态 $\tilde{h}_t$ 的新信息。
$z_t = \sigma(W_z \cdot [h_{t-1}, x_t] + b_z)$
其中， $\sigma$ 是Sigmoid函数，输出范围在[0, 1]之间。 $z_t$ 越接近1，表明保留的历史信息越多，纳入的新信息越少；反之，则更倾向于用新信息更新状态。