Seq2seq模型
本文将对基于RNN/LSTM的传统的Seq2seq模型做一个介绍。Seq2Seq模型一般都有Encoder和Decoder两个结构,由Encoder来处理input sequence然后生成一个句子的embedding vector交给Decoder来决定要什么样的output sequence。这种模型可以用RNN/LSTM来实现。
1.回顾RNN
我们知道无论时间序列有多长,结构中每一个时刻对应的Whh, Wxh, Why是参数共享的,RNN中每一个时间部的输出都可以用以下的形式来表示(根据不同的任务g可以取不同的激活函数):
h(t) = g(Whh·h(t-1) + Wxh·x(t))
y(t) = g(Why·h(t))
一般的DNN是指沿纵向一层一层堆叠的神经网络,而RNN是沿时间维度横向堆叠的特殊的神经网络,当然RNN也可以是Deep的,同一层不同时部的参数是共享的,不同层的参数是不同的,像下图所示:
有人说一般的RNN每一个时间部的输出只考虑了前面时间部的信息,而没考虑后面的,所以就有了双向的即bidirectional RNN,如下图所示:
LSTM的结构与RNN类似这里不过过多介绍,都可以用来实现Seq2seq模型,下文中的结构部可以当作是RNN/LSTM都可以,道理相同。
2. Generation(Decoder)
首先来考虑如何生成一个句子,也就是Decoder部分要做的事情。Decoder每一时刻的输入是前一时刻的输出(可以用one-hot的形式来表示),每一时刻的输出是一个跟词表大小等长的distribution(一般用softmax做激活函数)