门控循环单元（GRU）

最新推荐文章于 2024-07-08 17:34:51 发布

six.学长

最新推荐文章于 2024-07-08 17:34:51 发布

阅读量751

点赞数 18

分类专栏：机器学习深度学习文章标签： gru 深度学习人工智能

本文链接：https://blog.csdn.net/m0_51200050/article/details/139996507

版权

62 篇文章 0 订阅

订阅专栏

31 篇文章 0 订阅

订阅专栏

门控循环单元（Gated Recurrent Unit，GRU）是长短期记忆（LSTM）的简化版本。GRU通过减少门控机制的数量，提高了计算效率，同时在很多任务上性能与LSTM相近。GRU由两个主要的门组成：重置门和更新门。这些门帮助GRU决定如何在每个时间步更新和传递信息。

GRU 的结构相比 LSTM 更简单，没有独立的记忆细胞状态。它通过两个门（重置门和更新门）来控制信息的流动和状态的更新。

重置门控制前一时刻的隐藏状态在当前时刻的信息重置程度。如果重置门的输出接近于0，意味着忘记前一时刻的状态信息；如果输出接近于1，则保留前一时刻的状态信息。

重置门的公式如下：

$r_t = \sigma(W_r \cdot [h_{t-1}, x_t] + b_r)$

其中：
- $r_t$ 是重置门的输出。
- $\sigma$ 是 sigmoid 激活函数。
- $W_r$ 是权重矩阵， $b_r$ 是偏置项。
- $h_{t-1}$ 是前一时刻的隐藏状态， $x_t$ 是当前时刻的输入。

更新门决定前一时刻的隐藏状态和当前时刻的新候选隐藏状态的权重比例。更新门的输出用于在新旧信息之间进行加权平均。

更新门的公式如下：

$z_t = \sigma(W_z \cdot [h_{t-1}, x_t] + b_z)$

其中：
- $z_t$ 是更新门的输出。
- $W_z$ 是权重矩阵， $b_z$ 是偏置项。

候选隐藏状态结合了当前输入和前一时刻的隐藏状态（经过重置门调节），用于更新当前的隐藏状态。

候选隐藏状态的公式如下：

$\tilde{h}_t = \tanh(W \cdot [r_t * h_{t-1}, x_t] + b)$

其中：
- $\tilde{h}_t$ 是候选隐藏状态。
- $r_t * h_{t-1}$ 表示重置门控制下的前一时刻隐藏状态。

最终的隐藏状态通过更新门的输出进行加权平均：

$h_t = (1 - z_t) * h_{t-1} + z_t * \tilde{h}_t$

假设我们有一个简单的输入序列： $x_1 = 0.5$ 和 $x_2 = 0.8$ 。我们通过 GRU 单元来计算输出。

初始状态：
- 初始隐藏状态 $h_0 = 0$
权重和偏置（假设为已知值）：
- $W_r = 0.1, b_r = 0.1$
- $W_z = 0.2, b_z = 0.2$
- $W = 0.3, b = 0.3$
第一个时间步 $x_1 = 0.5$ ：

重置门：
$r_1 = \sigma(0.1 \cdot [0, 0.5] + 0.1) = \sigma(0.05 + 0.1) = \sigma(0.15) \approx 0.537$
更新门：
$z_1 = \sigma(0.2 \cdot [0, 0.5] + 0.2) = \sigma(0.1 + 0.2) = \sigma(0.3) \approx 0.574$
候选隐藏状态：
$\tilde{h}_1 = \tanh(0.3 \cdot [0.537 \cdot 0, 0.5] + 0.3) = \tanh(0.15) \approx 0.149$
更新隐藏状态：
$h_1 = (1 - 0.574) \cdot 0 + 0.574 \cdot 0.149 \approx 0.086$

重置门：
$r_2 = \sigma(0.1 \cdot [0.086, 0.8] + 0.1) = \sigma(0.1 \cdot 0.886 + 0.1) = \sigma(0.1886) \approx 0.547$
更新门：
$z_2 = \sigma(0.2 \cdot [0.086, 0.8] + 0.2) = \sigma(0.2 \cdot 0.886 + 0.2) = \sigma(0.3772) \approx 0.593$
候选隐藏状态：
$\tilde{h}_2 = \tanh(0.3 \cdot [0.547 \cdot 0.086, 0.8] + 0.3) = \tanh(0.3211) \approx 0.310$
更新隐藏状态：
$h_2 = (1 - 0.593) \cdot 0.086 + 0.593 \cdot 0.310 \approx 0.229$

通过这个具体的数值例子，我们可以看到 GRU 如何通过重置门和更新门来控制信息的流动，从而在序列建模中捕捉长时间范围内的依赖关系。相比于 LSTM，GRU 结构更简单，计算效率更高，同时在很多任务上性能与 LSTM 相近。这使得 GRU 在处理序列数据时成为一种有效的选择。

关注