论文阅读笔记《Get To The Point: Summarization with Pointer-Generator Networks》

摘要

在生成式摘要任务中,对于传统的seq2seq+attention的模型架构,作者提出它们有以下缺点:

  • 难以准确复述原文细节
  • 无法处理原文中的未登录词(OOV)
  • 在生成的摘要中存在一些重复的部分

此文提出了一种新颖的架构来增强标准的seq2seq+attention模型,采用了两种正交(互相之间不存在交集)的新颖手段:

  • 使用指针生成器网络(pointer-generator network),通过指针从原文中拷贝词,这种方式的高明之处在于正确复述原文信息的同时,也能使用生成器生成一些新的词
  • 使用覆盖率(coverage) 机制,追踪哪些信息已经在摘要中了,通过这种方式以期避免生成具有重复片段的摘要

一 介绍

摘要技术整体分为两种:

  • 1. 抽取式extractive
  • 2.生成式astractive 

抽取式比较简单,目前的performance也一般比较高,因为它是直接从原文抽取一些段落。但是想要生成高质量的摘要,必须具备一些复杂的摘要能力(如释义(paraphasing), 概括(generalization), 与现实世界知识的融合(incorporation of real-world knowledge)),这些只有通过生成式模型才可能得以实现。鉴于生成式摘要任务的困难性,早期的摘要技术一般都是抽取式的,然而随着seq2sq架构的出现(Sutskever et al., 2014),使用这种架构来读取与自由地生成文本就变得可行了(Chopra et al., 2016; Nallapati et al., 2016; Rush et al.,2015; Zeng et al., 2016)。虽然这种模型很有前景,但存在本文摘要中所说的那三种缺点。虽然最近的生成式摘要方面的工作专注于标题生成任务(headline generation)(将一个或两个句子减少到单个标题),但此文作者认为较长文本的摘要更具挑战性(需要更高级别的抽象同时避免重复)并最终更有用。此文提出的模型在CNN/Daily Mail上的表现: 在至少2个ROUGE的指标上达到2017新的state of the art此文提出的的指针生成器网络(pointer-generator network),通过指向(pointing)从原文中拷贝词语(方案提出者: (Vinyals et al., 2015)),这样在保留可生成新的词的能力的同时,也能准确复述原文内容(个人认为作者很有洞见性,知道抽取式方案有其自身的优势,通过这种方法来达到抽取式(extractive)和生成式(abstractive)两种方案的平衡点)。同样想达到这个平衡点的还有CopyNet(Gu et al.’s (2016))和Forced-Attention Sentence Compression(Miao and Blunsom (2016))。作者以前做神经机器翻译(Neural Machine Translation) 的任务时,提出过一种覆盖向量(coverage vector) (Tu et al., 2016)机制,用来跟踪和控制原文档内容的覆盖率,证明过此种机制对于消除重复片段特别有效。

二 模型

  • 此文使用的 基准比较模型(baseline) : 序列到序列(sequence to sequence) 模型架构
  • 此文使用的指针生成器网络(pointer-generator network)
  • 此文的覆盖率机制(coverage mechanism) , 可以被加在上述两种模型架构上

2 模型架构

2.1 传统的Seqs-to-Seqs+attention模型

拿论文的图举个例子,如解码器要预测Germany的下一个词,就拿此时的状态向量(这个状态向量随便你定义,假如用LSTM解码的话,可以是此时的hidden向量或者ceil向量,或者把它们拼接起来,或者把它们去做一些全连接后得到)去跟编码器各个时刻的隐层向量发生耦合,产生Attention分布,得到当前解码步对应着编码步的哪个词,如这里通过计算,得到要预测的下一个词就跟“win”这个词有最大的关系,从而把这种信息带进去模型预测中,成功预测出“beat”。

具体的,怎么让解码器的状态向量和编码器的隐层向量发生耦合(也即attention可以怎么实现),其实有很多种方法。就拿论文里提到的

 

 

 

2.2 Pointer-generator network 

 

 

 

Conclusion

总的来说,本论文提出一种结合抽取式和生成式的文本生成方法,创新型和效果还是十分值得肯定的!

链接:

论文阅读笔记《Get To The Point: Summarization with Pointer-Generator Networks》_Alanaker的博客-CSDN博客

NLP系列之文本生成(一):《Pointer-Generator Networks》论文解读和代码 - 知乎 

【论文阅读】Get to the point :summarization with pointer-generator networks - 爱码网 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值