seq2seq
seq2seq是编码(encode)+解码(decode)的经典结构。在自然语言处理中有着重要的地位。偶然看到一位大佬的可视化工作,我将结合视频与简单公式做一个快速的总结。所有的工作是基于自然语言处理中机器翻译的工作展开的。
每一个纯色方框是表示一个RNN基本单元。在编码的过程中,我们将每一个词的向量形式依次输入RNN中,结合当前的隐含向量得到下一个时刻的隐含向量。第一个RNN的隐含向量为空。编码阶段最后得到隐含向量,然后传给解码单元。解码单元依次的解码出翻译的单词,直到出现
的停止符。
attention
seq2seq模型的编码与解码的连接点仅仅是编码单元输出的隐含向量,总是缺少更多的有用的信息。attention就是希望能够在解码每个单词的时候能够考虑到之前编码器中重要的隐含向