GRU神经网络_gru网络-CSDN博客

本文链接：https://blog.csdn.net/lijf2001/article/details/125990643

RNN在处理时序数据时，因过度记忆导致问题，尤其在概念漂移情况下。GRU通过重置门和更新门解决这些问题，允许选择性地遗忘和保留历史信息。重置门用于处理概念漂移，更新门决定状态信息的更新程度。在PyTorch中，GRU层可以直接使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RNN的局限性

在处理时序数据时候，RNN是一种十分简单的方法，但是它并不完美。它会记住太多的信息。
回忆一下能够状态函数 $H_t$ ，它对每个进入的 $X_t$ 都记录了。然而实际上并不需要完全记住这么多信息，就像一句话中的“的”之类的词就是意义不大的。记录了这些无用的信息反而会对预测产生误导。

此外还存在的一种特殊情况：概念漂移，随着时间的推移数据分布发送了变化。
面对这种情况，过去记录的状态信息可能不管用了，而且会产生误导，需要将其遗忘。

GRU神经网络

针对上述两种缺陷，GRU神经网络应运而生，它通过增设两个“门”，来实现的。

重置门

通过这个门就可以有效的解决概念漂移的问题。
$R_t=\Theta\left( X_t\cdot W_{xr} + H_{t-1}\cdot W_{hr} + b_r \right)$
$R_t$ 与 $H_{t-1}$ 对应元素相乘，并于 $X_t$ 对于元素相加，就得到了候选状态 $H'_t$ 。
考虑两种极端情况：

$R_t$ 中全部是 $1$ ，也就是说记住之前全部的历史信息$H_{t-1}。
$R_t$ 中全部是 $0$ ，也就是说遗忘掉全部的历史信息 $H_{t-1}$ ，即重置。

$W, B$ 是需要学习的权重，它们负责判断在哪些状态下需要遗忘（重置）说明。

更新门

在重置门中，产生了有关候选状态 $H'_t$ ，它还需要经过更新门才能变为真正的状态 $H_t$ 。
$Z_t=\Theta\left( X_t\cdot W_{xz} + H_{t-1}\cdot W_{hz} + b_z \right) \newline H_t =Z_t*H_{t-1}+\left( 1 - Z_t\right)*H'_t$