GRU门控循环神经网络

门控循环网络
深度学习的概念源于对人工神经网络的研究,门控循环单元GRU神经网络是深度学习的一种。长短期记忆网络(LSTM)在RNN的基础上,通过引入门控操作解决了其梯度爆炸的问题,而GRU网络实际上是LSTM网络一种较为成功的变体【1,2,3】。
在这里插入图片描述
对比一般的神经网络,GRU网络收敛速度快且不容易发生梯度消失的情况,主要原因是该网络复杂的门控单元(细胞状态)通过偏置和相关参数来实时和灵活的调整激活函数的输入,进而控制门的开启和关闭,保存和更新有用的信息,将过程中的梯度进行了抵消,使得GRU深度门控网络具有高效的性能,适合于处理时间序列中间隔和延迟非常长的事件,如预测风速,入库径流,未来天气状况、温度湿度等。GRU神经网络结构如图1中所示。
在这里插入图片描述
图1 GRU深度门控网络架构
Fig. 1 GRU deep gated network architecture
图中更新门 用于描述前一时刻的状态信息被带入到当前状态中的程度,更新门的阈值越大说明前一时刻的状态信息将会带入的越多,有助于捕捉时序序列中长期的依赖关系。重置门 用于描述前一时刻的状态信息被忽略的程度,重置门的阈值越小说明忽略的信息越多,有助于捕捉时序序列中短期的依赖关系。其网络前向传播权重参数更新公式如下[22]:(8)
式中: 和 分别表示重置门和更新门, 为sigmoid 函数, 为t时刻的输入, 为 时刻的隐含状态的输入, 、 分别为权重参数和偏移参数。 候选隐藏状态, 为Hadamard积,即按对应元素相乘。参数更新关系可表示为:当重置门 趋于0时,重置和遗忘上一时刻 的状态信息,将候选隐藏状态 重置为当前输入的信息;而更新门 则可以组合控制上一时刻的 和候选隐藏状态时刻的 ,来更新和输出 。与LSTM网络类似,GRU网络采用后向误差传播算法来训练网络。假设输出层的输入为: ,输出为: ,设某时刻损失函数为 ,则样本的损失为 ,利用损失函数对上述四个参数求偏导即可实现对GRU网络参数的训练。

[1] C. Gulcehre, K. Cho, R. Pascanu, et al. Learned-norm pooling for deep feedforward and recurrent neural networks [M]. In Machine Learning and Knowledge Discovery in Databases, pages 530–546. Springer, 2014.
[2] Graves A, Jürgen Schmidhuber. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(5-6): 602-610.
[3] 李文武, 石强, 王凯, 等. 基于变分模态分解和深度门控网络的径流预测[J]. 水力发电学报, 2020, 39(3): 34-44.

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值