GRU-门控循环单元

GRU概念理解

背景:在RNN结构中,当序列较长时,较远端的信息容易被遗忘。而对于一个序列,并不是每个位置的关注度(重要程度)都是一样的。

引入两个概念:

Rt(重置门):能遗忘的机制

Zt(更新门):能关注的机制

Rt和Zt的取值范围均为 [0,1]

计算公式:

都有自己对应的可学习权重参数,激活函数是sigmoid函数。本质也是一个向量,其长度与Ht一致 

候选隐藏状态:

 中间表示对应元素相乘,越靠近0,说明该位置越容易被遗忘

当前隐藏状态的计算:

 Zt控制了隐藏状态的更新

R_t 已经对过去有所选择,为何还要加上 Z_t 多此一举?

答:Z_t 实际上是对当前进行选择,根据李沐老师的例子,如果一个序列中已经有很多的“猫”,那么再输入猫,实际上对于网络的正收益不大,可以抛弃,而 R_t 只能选择过去,不能抛弃当前,而 Z_t 可以。
总而言之,GRU通过两个门控网络,根据过去状态和当前输入,一方面对过去状态进行选择,一方面对当前状态也进行选择。

 Pytorch实现

参考资料:

torch.nn.GRU使用详解 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值