Pointer Network
Abstract 我们引入了一种新的神经网络结构来学习输出序列的条件概率,其中的元素是与输入序列中的位置对应的离散序列。这类问题不能通过现在的序列对序列和NTM(Neural Turing Mechines)解决,因为在每个步骤的输出的目标数量取决于输入的长度,这是可变的。诸如排列可变长度序列和各种组合优化问题的问题都属于这个类型。我们的模型采用最近提出的神经注意机制解决了可变大小输出字典的问题。它不同于前面提出的,不是使用注意力机制/将编码器的隐层单元混合在每个解码阶段的上下文向量中,而使用注意力机制作为指针来选择输入序列的一个成员来作为输出序列。我们把这种体系结构叫做指针网络。Ptr-Nets不仅改进了序列到序列(seq-to-seq)的输入注意力机制,而且允许我们将模型泛化去处理可变字典。
1 Introduction
RNN用于序列上的函数学习已经有30年的历史。然而,它们的结构限制了它们用固定的帧频作为输入输出。最近引入了一种序列对序列模式(seq-to-seq)[1] 消除了这些约束:它使用一个RNN将输入映射成为一个嵌入(embedding),用另一个RNN将这个嵌入(embedding)映射为输出。Bahdanau使用了基于文本的注意力机制,通过从输入中产生额外的上线文信息来增强解码器。这些发展使得将RNN应用在新的领域成为可能,实现了自然语言处理的核心问题,诸如翻译、分析,图像和视频字幕,甚至是学会执行小程序。