GRU门控循环神经网络

最新推荐文章于 2024-08-06 12:15:00 发布

SparkQiang

最新推荐文章于 2024-08-06 12:15:00 发布

阅读量2.9k

点赞数 2

本文链接：https://blog.csdn.net/SparkQiang/article/details/104357162

版权

门控循环网络
深度学习的概念源于对人工神经网络的研究，门控循环单元GRU神经网络是深度学习的一种。长短期记忆网络（LSTM）在RNN的基础上，通过引入门控操作解决了其梯度爆炸的问题，而GRU网络实际上是LSTM网络一种较为成功的变体【1,2,3】。
在这里插入图片描述
对比一般的神经网络，GRU网络收敛速度快且不容易发生梯度消失的情况，主要原因是该网络复杂的门控单元（细胞状态）通过偏置和相关参数来实时和灵活的调整激活函数的输入，进而控制门的开启和关闭，保存和更新有用的信息，将过程中的梯度进行了抵消，使得GRU深度门控网络具有高效的性能，适合于处理时间序列中间隔和延迟非常长的事件，如预测风速，入库径流，未来天气状况、温度湿度等。GRU神经网络结构如图1中所示。
在这里插入图片描述
图1 GRU深度门控网络架构
Fig. 1 GRU deep gated network architecture
图中更新门用于描述前一时刻的状态信息被带入到当前状态中的程度，更新门的阈值越大说明前一时刻的状态信息将会带入的越多，有助于捕捉时序序列中长期的依赖关系。重置门用于描述前一时刻的状态信息被忽略的程度，重置门的阈值越小说明忽略的信息越多，有助于捕捉时序序列中短期的依赖关系。其网络前向传播权重参数更新公式如下[22]：（8）
式中：和分别表示重置门和更新门，为sigmoid 函数，为t时刻的输入，为时刻的隐含状态的输入，、分别为权重参数和偏移参数。候选隐藏状态，为Hadamard积，即按对应元素相乘。参数更新关系可表示为：当重置门趋于0时，重置和遗忘上一时刻的状态信息，将候选隐藏状态重置为当前输入的信息；而更新门则可以组合控制上一时刻的和候选隐藏状态时刻的，来更新和输出。与LSTM网络类似，GRU网络采用后向误差传播算法来训练网络。假设输出层的输入为：，输出为：，设某时刻损失函数为，则样本的损失为，利用损失函数对上述四个参数求偏导即可实现对GRU网络参数的训练。

[1] C. Gulcehre, K. Cho, R. Pascanu, et al. Learned-norm pooling for deep feedforward and recurrent neural networks [M]. In Machine Learning and Knowledge Discovery in Databases, pages 530–546. Springer, 2014.
[2] Graves A, Jürgen Schmidhuber. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(5-6): 602-610.
[3] 李文武, 石强, 王凯, 等. 基于变分模态分解和深度门控网络的径流预测[J]. 水力发电学报, 2020, 39(3): 34-44.