GRU的原理，以及LSTM比较

最新推荐文章于 2025-03-31 21:52:05 发布

你今天机器学习了么

最新推荐文章于 2025-03-31 21:52:05 发布

阅读量3.4k

点赞数 3

文章标签：深度学习

本文链接：https://blog.csdn.net/None_Pan/article/details/106481954

版权

门控循环单元（GRU）是较流行的长期短期记忆（LSTM）网络的年轻兄弟，也是一种循环神经网络（RNN）。就像它的兄弟一样，GRU能够有效保留顺序数据中的长期依赖性。此外，他们还可以解决困扰普通RNN的“短期记忆”问题。

门控循环单元（GRU）是RNN体系结构的一种变体，它使用门控机制来控制和管理神经网络中细胞之间的信息流。 GRUs仅在2014年由Cho等人引入。并且可以认为是相对较新的体系结构，尤其是与Sepp Hochreiter和JürgenSchmidhuber在1997年提出的LSTM相比。

在这里插入图片描述

GRU的结构允许它自适应地捕获大型数据序列中的依存关系，而不会丢弃序列早期部分的信息。这是通过其门控单元（类似于LSTM）实现的，该门控单元解决了传统RNN的消失/爆炸梯度问题。这些门负责调节每个时间步骤要保留或丢弃的信息。本文稍后将详细介绍这些门的工作方式以及它们如何克服上述问题。

GRU单元的结构如下所示。

在这里插入图片描述

重置门
第一步，我们将创建“重置”门。使用前一时间步的隐藏状态和当前时间步的输入数据来导出和计算此门。

在这里插入图片描述

从数学上讲，这是通过将先前的隐藏状态和当前输入与它们各自的权重相乘并在将总和通过S型函数之前求和来实现的。 sigmoid函数会将值转换为介于0和1之间，从而允许门在后续步骤中在次要信息和次要信息之间进行过滤。

在这里插入图片描述

当通过反向传播训练整个网络时，方程中的权重将被更新，以使向量将学习仅保留有用的特征。

先前的隐藏状态将首先乘以可训练的权重，然后将与重置向量进行逐元素乘法（Hadamard乘积）。此操作将决定要保留先前时间步长中的哪些信息以及新输入。同时，当前输入也将乘以可训练的权重，然后再与复位向量和上述先前隐藏状态的乘积相加。最后，将非线性激活tanh函数应用于最终结果，以获得下式中的r。

在这里插入图片描述

更新门
接下来，我们必须创建更新门。就像复位门一样，该门使用先前的隐藏状态和当前输入数据进行计算。
在这里插入图片描述

更新和复位门矢量都使用相同的公式创建，但是权重乘以输入状态和隐藏状态对每个门来说都是唯一的，这意味着每个门的最终向量是不同的。这允许门服务于其特定目的。
在这里插入图片描述
然后，更新向量将与先前的隐藏状态进行逐元素乘法，以在下面的方程式中获得u，稍后将使用该向量计算最终输出。

当获得最终输出时，更新向量还将在以后的其他操作中使用。此处更新门的目的是帮助模型确定将来需要保留多少存储在先前隐藏状态中的过去信息。