作者:Oriol Vinyals et al.
1 Introduction
背景:RNN应用于学习序列函数有很多年了,然而以往的框架限制了序列的输入输出长度。最近的研究引进了新的Seq2seq范式解决了这个约束。
问题:这些方法仍然需要预先确定输出字典的大小。由于这个约束,因此这个框架不能应用于组合优化问题(输出字典的大小取决于输入序列的长度)。
解决办法:通过重新利用注意力机制来创建指向输入元素的指针来解决这个限制。
2 Models
2.1 Sequence-to-Sequence Model
给定一个训练对(training pair) ,Seq2seq模型使用参数模型(带有参数
的RNN)计算条件概率
,来估计概率链式法则的项。