论文:Sequence to Sequence Learning with Neural Networks
作者:Ilya Sutskever et al.
1 Introduction
背景:深度神经网络(Deep Neural Networks)非常强大,能解决很多困难问题(如语音识别、视觉图像识别)。
问题:尽管DNNs 具有灵活性和强大功能,但它只能应用于输入和目标可以用固定维数的向量进行合理编码的问题。这是一个很大的限制,因为许多重要的问题需要用长度未知的序列来表达。因此,一种学习将序列映射到序列的域独立方法将是有用的。
解决办法:用一个LSTM读取输入序列,用一个固定维向量表示,然后用另一个LSTM从该向量中提取出输出序列。如图所示。
(请注意,在这里LSTM 反向读取输入句子,因为这样做会在数据中引入许多短期依赖关系,从而使优化问题变得更加容易。)
2 The Model
给定一个输入序列