通俗理解GRU网络原理

最新推荐文章于 2025-04-03 16:07:39 发布

一只程序猿中的算法dog

最新推荐文章于 2025-04-03 16:07:39 发布

阅读量1.1w

点赞数 4

分类专栏：深度学习文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/qq_45301231/article/details/117559218

版权

深度学习专栏收录该内容

5 篇文章

订阅专栏

GRU介绍

上篇文章提到了RNN（循环神经网络）的变体LSTM（长短期记忆网络），现在说一下它们的另一个变体GRU（Gate Recurrent Unit）——门控循环单元。虽然LSTM能够解决循环神经网络因长期依赖带来的梯度消失和梯度爆炸问题，但是在LSTM中引入了三个门函数：输入门、遗忘门和输出门来控制输入值、记忆值和输出值，参数较多，训练起来比较困难。而在GRU模型中只有两个门：分别是更新门和重置门，且在超参数全部调优的情况下，二者性能相当，GRU结构更为简单，训练样本较少，易实现。

GRU的结构

在这里插入图片描述
图中的zt和rt分别表示更新门和重置门。

GRU的前向传播

根据GRU的模型结构图，我们来看一下GRU的前向传播公式：
在这里插入图片描述
（1）更新门Zt ：更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多，将前一时刻和当前时刻的信息分别右乘权重矩阵，然后相加后的数据送入更新门，也就是与sigmoid函数相乘，得出的数值在[0, 1]之间。
（2）重置门rt：控制前一状态有多少历史信息被写入到当前的候选集 h~t 上，重置门越小，前一状态的信息被写入的越少，同更新门的数据处理一样，将前一时刻和当前时刻的信息分别右乘权重矩阵，然后相加后的数据送入重置门，也就是与sigmoid函数相乘，得出的数值在[0, 1]之间。只是两次的权重矩阵的数值和用处不同。
GRU直接使用更新门来控制输入和遗忘的平衡，而LSTM中输入门和遗忘门相比GRU就具有一定的冗余性了。