GRU:
Rt是重置门,其值在0~1之间
Zt是更新门,其值在0~1之间
可以看到,我们的当前候选隐含状态是根据当前的输入和前一个隐含状态得到,它与重置门有关,是要不要保留之前隐含状态的问题;前三个式子都和当前输入和前一个隐含状态有关。而真正的当前隐含状态是前一个隐含状态和当前候选隐含状态的组合。当Zt=1,Ht=Ht-1,那么就能具有长期记忆的能力。
LSTM:
候选细胞没有用到门。
第二个红框的意思就是指的是这里:
虽然知道这些网络的结构,但还必须结合数据来看,才知道这些门到底每一次保留或者丢弃的是什么数据。下一步,上代码看数据处理过程。
看一看LSTM的前向传播和后向传播过程:
由于 Ct 记忆了所有时刻的细胞状态,故每个时间点迭代时,δCt 累加。
和一开始的输入比较一下: