论文阅读笔记《Get To The Point: Summarization with Pointer-Generator Networks》

最新推荐文章于 2022-07-29 19:30:48 发布

Dongxue_NLP

最新推荐文章于 2022-07-29 19:30:48 发布

阅读量531

点赞数 1

分类专栏：自然语言处理NLP 文章标签：人工智能 pytorch lstm 神经网络深度学习

本文链接：https://blog.csdn.net/dongxueb/article/details/123984994

版权

自然语言处理NLP 专栏收录该内容

21 篇文章 9 订阅

订阅专栏

摘要

在生成式摘要任务中，对于传统的seq2seq+attention的模型架构，作者提出它们有以下缺点:

难以准确复述原文细节
无法处理原文中的未登录词(OOV)
在生成的摘要中存在一些重复的部分

此文提出了一种新颖的架构来增强标准的seq2seq+attention模型，采用了两种正交(互相之间不存在交集)的新颖手段:

使用指针生成器网络(pointer-generator network)，通过指针从原文中拷贝词，这种方式的高明之处在于正确复述原文信息的同时，也能使用生成器生成一些新的词
使用覆盖率(coverage) 机制，追踪哪些信息已经在摘要中了，通过这种方式以期避免生成具有重复片段的摘要

一介绍

摘要技术整体分为两种:

1. 抽取式extractive
2.生成式astractive

抽取式比较简单，目前的performance也一般比较高，因为它是直接从原文抽取一些段落。但是想要生成高质量的摘要，必须具备一些复杂的摘要能力(如释义(paraphasing), 概括(generalization), 与现实世界知识的融合(incorporation of real-world knowledge))，这些只有通过生成式模型才可能得以实现。鉴于生成式摘要任务的困难性，早期的摘要技术一般都是抽取式的，然而随着seq2sq架构的出现(Sutskever et al., 2014)，使用这种架构来读取与自由地生成文本就变得可行了(Chopra et al., 2016; Nallapati et al., 2016; Rush et al.,2015; Zeng et al., 2016)。虽然这种模型很有前景，但存在本文摘要中所说的那三种缺点。虽然最近的生成式摘要方面的工作专注于标题生成任务(headline generation)（将一个或两个句子减少到单个标题），但此文作者认为较长文本的摘要更具挑战性（需要更高级别的抽象同时避免重复）并最终更有用。此文提出的模型在CNN/Daily Mail上的表现: 在至少2个ROUGE的指标上达到2017新的state of the art此文提出的的指针生成器网络(pointer-generator network)，通过指向(pointing)从原文中拷贝词语(方案提出者: (Vinyals et al., 2015))，这样在保留可生成新的词的能力的同时，也能准确复述原文内容(个人认为作者很有洞见性，知道抽取式方案有其自身的优势，通过这种方法来达到抽取式(extractive)和生成式(abstractive)两种方案的平衡点)。同样想达到这个平衡点的还有CopyNet(Gu et al.’s (2016))和Forced-Attention Sentence Compression(Miao and Blunsom (2016))。作者以前做神经机器翻译(Neural Machine Translation) 的任务时，提出过一种覆盖向量(coverage vector) (Tu et al., 2016)机制，用来跟踪和控制原文档内容的覆盖率，证明过此种机制对于消除重复片段特别有效。

二模型

此文使用的基准比较模型(baseline) : 序列到序列(sequence to sequence) 模型架构
此文使用的指针生成器网络(pointer-generator network)
此文的覆盖率机制(coverage mechanism) , 可以被加在上述两种模型架构上

2 模型架构

2.1 传统的Seqs-to-Seqs+attention模型

拿论文的图举个例子，如解码器要预测Germany的下一个词，就拿此时的状态向量（这个状态向量随便你定义，假如用LSTM解码的话，可以是此时的hidden向量或者ceil向量，或者把它们拼接起来，或者把它们去做一些全连接后得到）去跟编码器各个时刻的隐层向量发生耦合，产生Attention分布，得到当前解码步对应着编码步的哪个词，如这里通过计算，得到要预测的下一个词就跟“win”这个词有最大的关系，从而把这种信息带进去模型预测中，成功预测出“beat”。

具体的，怎么让解码器的状态向量和编码器的隐层向量发生耦合（也即attention可以怎么实现），其实有很多种方法。就拿论文里提到的