借着与同事组内分享的机会,根据论文Neural Machine Translation By Jointly Learning to Align and Translate把带Attention机制的Seq2Seq框架Encoder与Decoder部分的流程图画了一下,公式梳理了一遍。
Bi-RNN Encoder
Encoder的流程如上图所示,最终的输出结果是每个时刻的hidden_state h1,h2,h3,...,hT 。
其中的GRU使用的双向的,正向部分的公式如下
h⃗ 0=0
z⃗ i=σ(W⃗ zE⃗ xi+U⃗ zh⃗ i−1)(1)
r⃗ i=σ(W⃗ rE⃗ xi+U⃗ rh⃗ i−1)(2)
h⃗ i^=tanh(W⃗ E⃗ xi+U⃗ [r⃗ i∗