复旦大学陈怡然：文本摘要的跨数据集迁移研究

AITIME论道

于 2020-11-27 18:15:09 发布

阅读量1.2k

点赞数

文章标签：机器学习人工智能编程语言数据分析深度学习

原文链接：https://static.aminer.cn/misc/pdf/fudan2.pdf

版权

⬆⬆⬆ 点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

文本摘要任务是文本生成任务的子类，输入一段源文本，期望输出包含源文本主要内容的精简、流畅、没有语法错误的摘要。以往的模型表现分析往往基于同一个数据集，这篇工作对抽取式和生成式的11个摘要模型进行了跨数据集表现的研究，期望更加全面的了解不同摘要模型在跨数据集迁移上的表现。

本期AI TIME PhD直播间，我们有幸邀请到复旦大学研究生陈怡然为我们进行分享，本次分享的主题是——文本摘要的跨数据集迁移研究。

陈怡然：复旦大学自然语言处理组2019级在读研究生，导师邱锡鹏教授，研究方向为文本摘要，主要关注文本摘要的分析和评估。

一、研究背景

1.1什么是文本摘要？

负采样

文本摘要任务是文本生成任务的子类，输入一段源文本，期望输出包含源文本主要内容的精简、流畅、符合原文事实、没有语法错误的摘要。

该任务目前主要有两类框架：抽取式摘要(extractive)和生成式摘要(abstractive)。顾名思义，抽取式摘要就是从原文档中直接抽取不同粒度的关键词或关键句组成摘要。生成式摘要则是基于encoder-decoder的Seq2Seq框架，允许根据原文生成新的词语、短语，paraphrase的程度更高。

1.2两类摘要的基本框架

负采样

经典抽取式摘要的主要框架分为三部分：sentence encoder, document encoder, 以及decoder。每句话输入到sentence encoder后得到句子的表示，再输入到 document encoder得到篇章表示，最后把文章和句子的表示一起加到decoder中，判断是否把这句话加入摘要，就完成了整个抽取的流程。

而生成式摘要则是基于encoder-decoder的Seq2Seq框架，下图是带attention的 sequence架构，左边是encoder，右边是decoder。Source document输入到encoder中，得到一系列隐状态，decoder通过attention可以动态地attend到encoder中不同词的隐状态，从而获得一个vocabulary distribution，也就是右上角的绿色的部分。通过greedy的方式，从这些distribution中取概率最大的词，作为当前的输出，然后经过不停的迭代直到生成完整的摘要（也可以用beam search等方式）。

二、研究动机

负采样

以往的模型表现分析往往基于同一个数据集，这篇工作希望研究以上两种类型的摘要模型在跨数据集上的表现，从而更加全面地了解不同模型在跨数据集迁移上的表现。

具体可以看下图中不同模型的排名情况，每个bin代表一个摘要模型，模型按性能好坏从高到低排序。橙色是生成式模型，而蓝色是抽取式模型。最左边一列是以往in-dataset分析得到的模型排序，衡量指标是ROUGE。而右边两列则是我们这篇论文中cross-dataset设定下的排序情况

在in-dataset的情况下BART占据着SOTA地位，但是在cross-dataset的设定下BART却连连下滑。且在新的设定下，橙蓝两色分层明显，说明抽取式模型表现优于生成式模型。

本篇论文就是要探讨这个现象，我们希望回答两个问题：

1、不同的神经网络机制怎么影响模型的跨数据集表现？

2、生成模型和抽取模型在跨数据集表现上有何区别？

三、实验方法和指标

负采样

3.1 数据集和模型

负采样

基于以上动机，我们选择了5个数据集，分别是CNN/DailyMail, Xsum, Pubmed, Bigpatent B和Reddit TIFU。前两个数据集是新闻领域，不过CNN/DailyMail的摘要更长，往往是三句话左右，而Xsum只有一句话。Pubmed是学术领域，Bigpatent B是专利领域，Reddit TIFU则是爬自Reddit网站。在这五个Dataset上，我们用了11个模型来测试和训练，包括5个抽取式模型和6个生成式模型（如下图所示）。

3.2 衡量标准

负采样

有了数据集和模型之后，我们需要一些metrics来衡量这些模型的表现。第一个metric是摘要领域非常常见的衡量方式ROUGE，用来计算生成的摘要和Gold Reference之间的语义相似度。第二个当前备受关注的衡量方向是Factuality，用来衡量生成的摘要和source document之间的事实一致性，这里我们使用factcc这个基于模型的事实检测器来作为事实检测指标。

除了模型的metrics，我们还用下面这些指标来衡量数据集的特性。首先，coverage和copy length用来衡量某个数据集倾向于抽取式模型的程度，两者都一定程度上刻画了gold reference和source document之间的重合度，重合度越高，该数据集对于生成式模型就更有利。第三是repetition，用于衡量gold reference的重复程度。第四是novelty，代表 gold reference中的新词，也就是没有在source document中出现的占比。最后是sentence fusion score，即gold reference中由原文两句及两句以上融合而成的句子的占比。Novelty和sentence fusion score都代表了这个数据集倾向于生成式模型的程度。

基于上面dataset的指标，我们可以对这个5个数据集进行分析。具体来看，CNN具有较高的coverage和copy length，因此这个数据集是偏向于抽取式的。而Xsum和Reddit则是具有较高的fusion score和novelty，所以这两个数据集是比较偏向于生成式的。最后PubMed和Bigatent B，一方面也拥有较高的novelty和fusion score，但另一方面也拥有不低的coverage和copy length，因此这两个数据集是比较偏向于中立的。

3.3跨数据集的衡量方式

负采样

基于ROUGE和Factcc这两个指标，我们提出了跨数据集的两种衡量方式：stiffness和stableness。每个模型其实都可以获得一个5×5的矩阵，这里的5就是数据集个数，而Uij是指在第i个数据集上训练、在第j个数据集上测试得到的ROUGE或Factcc的结果。

具体可以看右边这个例子，UA其实是一个2×2的矩阵，代表在数据集a、b上分别训练和测试的结果，而stiffness就是对矩阵进行平均，stableness和stiffness很像，唯一的区别是对每个Uij在对角线上进行了归一化，从而衡量 cross dataset和in dataset的差距。差距越大，stableness越低，因为一般情况下Uij更小于Ujj；差距越小，stability越高，我们觉得模型也更加稳定。例如右边的例子，对于模型A和模型B来说，B的stiffness较高，但stableness较低，说明stiffness和stableness这两个指标并非完全一致，而是相互弥补的存在。

3.3跨数据集的衡量结果

负采样

下面来看ROUGE和Factcc在stiffness和stableness这两种衡量方式下的结果。

1.ROUGE的stiffness和stableness

左边的柱形图分别代表了ROUGE的stiffness和stableness的结果，黄色是抽取式模型，灰色是生成式模型。

首先，对于stableness，黄色远高于灰色，也就是抽取式模型远高于生成式模型，这体现了生成式模型在跨数据集上的脆弱性。由于在跨数据集上的表现往往远低于数据集内部的表现，两者差距较大，导致stableness较低。

其次，对于stiffness，我们看到生成式框架下的SOTA模型BART和各个抽取式模型之间的差距其实非常小，而其他生成式模型都有较低的表现，这是BART非常突出的地方。但是回到stableness，我们发现BART跨数据集的能力还是低于抽取式模型。另外，stiffness和stableness都因为增加了point network或者coverage而有所提高，说明这两个mechanism能够提高模型在跨数据集上的能力。

最后对比BERTnon和Transnon，增加BERT往往能提升模型的stiffness，但是stableness却是BERTnon低于Transnon。这说明加入BERT可能导致cross-dataset和in-dataset的表现之间的差距进一步拉大，这也是我们未来要思考怎样弥补的地方。

2. Factcc的stiffness和stableness

下面来看Factcc的结果。首先，对于stiffness，灰色柱状图远远低于黄色柱状图，说明在Factcc指标下生成式模型的跨数据集表现远远低于抽取式模型。同时，生成式模型居然出现stableness高于100%的情况，这非常特殊，是因为生成式模型cross-dataset的表现高于in-dataset下的表现。

为什么会这样？通过研究Factcc指标，我们发现它倾向于对直接从原文copy出来的句子打高分，copy的程度越高，分数往往也越高。但对于那些有较多paraphrase的句子，往往是打低分，即使事实和原文一致，它还是倾向于判断事实错误。

对于生成式模型来说，这个指标就非常不利。举个例子，我们在CNN这个偏向于抽取式模型的数据集上训练，得到的生成式模型也能具有一定程度的copy能力。那么在诸如Xsum这种偏向于生成式模型的数据集上测试的时候，在CNN上训练的模型也能够对source document进行一定程度的复制。但是在Xsum上，这个数据上训练的模型却不能学到一定的复制能力，这就导致了跨数据集的表现要高于数据集内的表现，因为Factcc更倾向于直接提取的结果。这也为我们指出了 Factcc指标不足的地方，还远远有待改进。

3.5细粒度的分析

负采样

前面的结果都是holistic的分析，是对每个模型的矩阵平均之后进行对比，下面我们来看更加细粒度的结果。

下图中每一列是两个模型的对比，每个模型对应一个5×5的矩阵，外加行和列的平均值，组成6×6的矩阵。每一列是两个模型的结果相减，灰色代表正数，红色代表负数，也就是说灰色代表前面的模型更好，而红色代表后面的模型更好。

例如，图中最后一列对比了加BERT的抽取式模型和生成式模型，即BERTnon和BE2T。大部分情况下，抽取式模型表现是要高于生成式模型的。但是在Xsum和Reddit这两个偏向于生成式模型的数据集上测试的时候，我们看到：第一，灰色会变浅，即在这些数据集上训练时抽取式模型的优势会减少。第二，还出现了不少红色，这代表在某些数据集训练的时候，反而生成式模型有更好的表现。所以，我们在进行抽取式和生成式模型的对比时，不能局限于单个数据集的结果，而是需要衡量在不同数据集上的表现，结合数据集的偏好来进行分析。其他的结论由于时间原因，不逐个展开。大家如果感兴趣的话，可以去看我们的论文。

总结

这篇工作对抽取式和生成式的11个摘要模型在5个数据集上进行了跨数据集表现的研究，我们发现：

1.对比抽取式模型，生成式模型往往更加脆弱，在跨数据集上和数据集内的差距更大；

2.BART的表现在生成式模型中一马当先，在stiffness的衡量上甚至能与抽取式模型不相上下；

3.生成式模型的鲁棒性能够通过两种方式来提升：一是使模型具有一定的copy能力，即抽取式模型的能力。二是使用那些训练较好的Seq2Seq预训练模型，比如说BART；

4.单纯增加BERT能够提高stiffness，但相应地stableness也会下降；

5.当前的事实性检测指标Factcc还是有较大缺陷。