GRU概念理解
背景:在RNN结构中,当序列较长时,较远端的信息容易被遗忘。而对于一个序列,并不是每个位置的关注度(重要程度)都是一样的。
引入两个概念:
Rt(重置门):能遗忘的机制
Zt(更新门):能关注的机制
Rt和Zt的取值范围均为 [0,1]
计算公式:
都有自己对应的可学习权重参数,激活函数是sigmoid函数。本质也是一个向量,其长度与Ht一致
候选隐藏状态:
中间表示对应元素相乘,越靠近0,说明该位置越容易被遗忘
当前隐藏状态的计算:
Zt控制了隐藏状态的更新
R_t 已经对过去有所选择,为何还要加上 Z_t 多此一举?
答:Z_t 实际上是对当前进行选择,根据李沐老师的例子,如果一个序列中已经有很多的“猫”,那么再输入猫,实际上对于网络的正收益不大,可以抛弃,而 R_t 只能选择过去,不能抛弃当前,而 Z_t 可以。
总而言之,GRU通过两个门控网络,根据过去状态和当前输入,一方面对过去状态进行选择,一方面对当前状态也进行选择。
Pytorch实现
参考资料: