2017 ACL 指针生成网络
文章目录
Abstract
神经序列到序列模型为抽象文本摘要提供了一种可行的新方法(这意味着它们不局限于简单地从原始文本中选择和重新安排段落)。然而,这些模型有两个缺点:它们容易不准确地再现事实细节,而且它们倾向于重复自己。在这项工作中,我们提出了一个新的结构,以两种正交的方式增加标准的序列到序列的注意模型。首先,我们使用了一个混合的指针生成网络,它可以通过pointing从源文本中复制单词,这有助于准确地复制信息,同时保留了通过generator生成新单词的能力。其次,我们使用coverage来跟踪已经总结的内容,这就不鼓励重复。我们将我们的模型应用到CNN /每日邮报的总结任务中,比目前的抽象技术至少高出2个ROUGE点。
1 Introduction
摘要是将一段文本浓缩为包含原始文本主要信息的较短版本的任务。 摘要有两种广泛的方法:抽取式和抽象式。 抽取法只从直接从源文本中摘取的段落(通常是整句)中收集摘要,而抽象法可能会生成源文本中没有的新词和短语–就像人类编写的摘要通常所做的那样。 提取方法更容易,因为从源文档复制大块文本可以确保语法和准确性的基线水平。 另一方面,对于高质量摘要至关重要的复杂能力,如释义、概括或现实世界知识的结合,只有在抽象框架中才有可能(参见图5)。
由于抽象总结的困难,过去的绝大多数工作都抽取性的。 然而,最近序列到序列模型的成功使得抽象摘要变得可行。 尽管这些系统很有前途,但它们也表现出一些不良行为,如不准确地再现事实细节、无法处理词汇表外(OOV)单词以及重复(参见图1)。
在本文中,我们提出了一个在多句摘要的上下文中解决这三个问题的体系结构。 虽然最近的抽象工作集中在标题生成任务(将一两个句子简化为一个标题)上,但我们认为长文摘要更具挑战性(需要更高的抽象级别,同时避免重复),而且最终更有用。 因此,我们将我们的模型应用于最近引入的CNN/Daily Mail数据集,该数据集包含新闻文章(平均39句)和多句摘要,并表明我们比最先进的抽象系统的性能高出至少2个ROUGE点。
我们的混合指针-生成器网络通过指向方便了从源文本复制单词,这提高了OOV单词的准确性和处理,同时保留了生成新词的能力。 该网络可以被看作是抽取和抽象方法之间的平衡,类似于Gu et al.(2016)的CopyNet和Miao and Blunsom(2016)的强制注意句子压缩,它们被应用于短文本摘要。 我们从神经机器翻译中提出了一种coverage vector的新变体(Tu et al.,2016),我们使用它来跟踪和控制源文档的覆盖。 我们证明coverage 对消除重复是非常有效的。
2 Our Models
在本节中,我们将描述(1)我们的基线序列到序列模型,(2)我们的PointerGenerator模型,以及(3)我们的覆盖机制,可以添加到前两个模型中的任何一个。 我们模型的代码可以在线获得。www.github.com/abisee/pointer-generator
2.1 Sequence-to-sequence attentional model
我们的基线模型与Nallapati等人的相似。 (2016),如图2所示。 文章中的令牌Wi被一个接一个地送入编码器(单层双向LSTM),产生编码器隐层状态hi序列。 在每个步骤t上,解码器(单层单向LSTM)接收前一个单词的单词嵌入(在训练时,这是参考摘要的前一个单词;在测试时,这是解码器发出的前一个单词),并具有解码器状态st。注意力分布at计算方法与Bahdanau等人相同。 (2015年):
其中V、WH、WS和Battn是可学习参数。注意力分布可以看作是源词的概率分布,它告诉解码器在哪里寻找产生下一个词。 接下来,使用注意力分布来产生编码器隐藏状态的加权和,称为上下文向量h*t:
上下文向量可以看作是这一步从源读取的内容的FixedSize表示,它与解码器状态ST级联,并通过两个线性层馈送,以产生词汇分布PVOCAB:
PVOCAB是词汇表中所有单词的概率分布,它为我们提供了预测单词w的最终分布:
2.2 Pointer-generator network
我们的指针生成器网络是我们的基线和指针网络(Vinyals et al.,2015)之间的混合体,因为它既允许通过指向复制单词,也允许从固定词汇表生成单词。 在指针生成器模型(如图3所示)中,注意力分布AT和上下文向量HT如2.1节所示计算。 另外,时间步长T的生成概率P