Ranking Sentences for Extractive Summarization with Reinforcement Learning

Ranking Sentences for Extractive Summarization with Reinforcement Learning

摘要

单个文档摘要是在保留其主要信息内容的同时生成较短版本的文档的任务。 本文将抽取式摘要概念化为句子排序任务,并提出了一种新的训练算法,通过强化学习目标对ROUGE评价度量进行全局优化。 我们使用我们的算法在CNN和DailyMail数据集上训练神经摘要模型,并在实验上证明,当自动和人类评估时,它的性能优于最先进的抽取和抽象系统。

介绍

自动摘要由于其在各种信息方法应用中的潜力,在自然语言处理中得到了广泛的应用。 例子包括帮助用户浏览和消化网络内容的工具(如新闻、社交媒体、产品评论)、问题回答和个性化推荐引擎。 单个文档摘要-在保留其信息内容的同时生成较短版本的文档的任务-也许是多年来确定的最基本的摘要任务(全面概述见Nenkova和McKeown,2011年)。
现代的单一文档摘要方法是数据驱动的,利用神经网络体系结构的成功及其在不依赖预处理工具或语言注释的情况下学习连续特征的能力。 摘要涉及各种文本重写操作(例如替换、删除、重新排序),最近被定义为序列到序列问题(Sutskever等人,2014年)。 在大多数方法中处于中心地位是一种由递归神经网络建模的编解码结构。编码器将源序列读取到连续空间表示列表中,解码器从中生成目标序列。 注意机制(Bahdanau等人,2015年)经常用于在解码过程中定位焦点区域。
抽取式摘要系统通过识别(并随后连接)文档中最重要的句子来创建摘要。 最近的几种方法(Cheng和Lapata,2016年;Nallapati等人,2017年;Narayan等人,2017年;Yasunaga等人,2017年)将摘要概念化为一项序列标记任务,其中每个标签指定是否应将每个文档句子包括在摘要中。 现有的模型依赖于递归神经网络来导出文档的意义表示,然后用于标记每个句子,同时考虑到先前标记的句子。 这些模型通常使用交叉熵损失进行训练,以最大限度地提高标记结果的可能性,并且由于缺乏基于排序的目标,不一定学会根据句子的重要性对句子进行排序。 另一个差异来自学习目标与评估标准之间的不匹配,即ROUGE(Lin和Hovy,2003),它考虑了整个摘要。
在本文中,我们认为交叉熵训练不是最优的提取总结。 这样训练的模型容易产生冗长的摘要,不必要的长句子和多余的信息。 我们建议通过全局优化ROUGE评估度量和通过强化学习目标学习对句子进行排序以进行摘要生成来克服这些困难。 与以前的工作类似(Cheng和Lapata,2016年;Narayan等人,2017年;Nallapati等人,2017年),我们的神经摘要模型由层次文档编码器和层次句提取器组成。 在训练期间,它结合了 最大似然交叉熵损失与政策梯度强化学习的奖励,直接优化评价指标相关的总结任务。 我们表明,这种全局优化框架使提取模型更好地区分句子之间的最终摘要;如果一个句子经常发生在高分摘要中,则该句子被列为高选择。
我们在CNN和DailyMail新闻亮点数据集(Hermann等人,2015年)上报告了结果,这些数据集最近被用作神经摘要系统评估的试验台。 实验结果表明,当自动评估(以ROUGE为单位)时,我们的模型优于最先进的提取和抽象系统。 我们还进行了两次人类评估,以评估
(A)参与者喜欢哪种类型的摘要(我们比较抽取式系统和生成式系统)和
(B)摘要中保存了文档中多少关键信息(我们要求参与者通过阅读系统摘要来回答与文档中内容有关的问题)。
这两项评估压倒性地表明,人类受试者发现我们的摘要更有信息和完整。
我们在这项工作中的贡献有三个方面:
1 强化学习在提取摘要的句子排序中的新应用;
2 分析和经验结果证实,交叉熵训练不太适合摘要任务;
3 以及遵循两种评估范式的大规模用户研究,这些评估范式表明,最先进的生成式摘要落后于抽取系统,而后者是全局训练的。

2 Summarization as Sentence Ranking

给定一个由一系列句子(S1,S2,…,sn)组成的文档D,抽取式摘要的目的是通过从文档D(其中m<n)中选择m个句子来生成摘要S。 对于每个句 s i ϵ D {s_{i}\epsilon D} siϵD ,我们预测一个标签 y i

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值