GRU
GRU是由Cho在2014年提出的,全称是Gated Recurrent Unit。它与LSTM最大的不同在于GRU将遗忘门和输入门合成了一个“更新门”,同时网络不再额外给出记忆状态 C t C_t Ct,而是将输出结果 h t h_t ht作为记忆状态不断向后循环传递,网络的输入和输出都变得特别简单。具体的计算过程如下图所示:在本质上,GRU和LSTM是相同的,将上一时刻 t − 1 t-1 t−1输出 h t − 1 h_{t-1} ht−1和当前 t t t时刻的输入 x t x_t xt结合起来计算各种衰减系数,略微不同的地方是,线性变换没有使用偏置,由于记忆状态也是 h t − 1 h_{t-1} ht−1,所以直接对它进行更新就可以了,最后输出网络的结果 h t h_t ht,这个结果也是网络的记忆状态。