中文标题:基于强化学习的句子排序抽取式摘要
开源链接:https://github.com/shashiongithub/Refresh
论文链接:https://arxiv.org/pdf/1802.08636.pdf
发表:NAACL 2018
组织:爱丁堡大学
Abstract
本文将抽取式摘要任务当作一个句子排名任务,提出了一个基于强化学习的新方法。并且在CNN/DM数据集上达到了SOTA。
1. Introduction
作者提到先前的抽取式摘要通常是将摘要任务当作二分类任务,即预测文本中的某一句话是否被选为摘要,通常使用交叉熵作为损失函数。作者认为交叉熵做训练并不是最佳的抽取式摘要的方法,用此种方式很容易产生冗长的摘要,包含很多不必要的信息。本文提出要全局优化ROUGE指标并通过强化学习的目标来对句子进行排序以生成摘要。
2. Summarization as Sentence Ranking
对于一个文档以及句子序列,模型首先为每个句子预测一个标签,其中标签1代表句子应该出现在摘要之中,接着模型学习为标签为1的句子分配一个分数,最后根据得分排序,取前