论文学习笔记
Learning phrase representations using rnn encoder-decoder for statistical machine translation
一.RNN Encoder-Decoder
1.优:
(1)能更好的捕捉短语的语义规律
(2)学习的是短语的连续空间表示,保留了短语的语义和句法结构。
2.RNN
h < t > = f ( h < t − 1 > , x t ) h_{<t>}=f(h_{<t-1>},x_t) h<t>=f(h<t−1>,xt)
用到前一神经元的信息。
f f f:非线性激活函数
RNN特点:用到序列信息,在预测时,序列信息很重要
3.Decoder
h < t > = f ( h < t − 1 > , y < t − 1 > , c ) h_{<t>}=f(h_{<t-1>},y_{<t-1>},c) h<t>=f(h<t−1>,y<t−1>,c)
下一个symbol的概率:
P ( y t ∣ y t − 1 , y t − 2 , . . . , y 1 , c ) = g ( h < t > , y t − 1 , c ) P(y_t|y_{t-1},y_{t-2},...,y_1,c)=g(h_{<t>},y_{t-1},c) P(yt∣yt−1,yt−2,...,y1,c)=g(h<t>