【综述阅读】An Empirical Survey on Long Document Summarization: Datasets, Models and Metrics

最新推荐文章于 2023-03-21 22:24:21 发布

BUFANG_XF

最新推荐文章于 2023-03-21 22:24:21 发布

阅读量706

点赞数 1

分类专栏：自然语言处理文章标签：机器学习人工智能 python

本文链接：https://blog.csdn.net/BUFANG_XF/article/details/125772573

版权

自然语言处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

4 MODELS
5 MULTI-DIMENSIONAL ANALYSIS OF LONG DOCUMENT SUMMARIZERS

综述标题：An Empirical Survey on Long Document Summarization: Datasets, Models and Metrics

4 MODELS

4.1 Overview

以下描述了抽取式、抽象式和混合式摘要方法之间的区别与摘要系统的一般分类法。

A. 提取、抽象和混合方法

自动文本摘要研究中的工作传统上分为三种不同的摘要方法：（i）提取方法，涉及将原始文档的句子等显着片段直接提取到摘要中 [15, 38]，（ii）抽象方法模仿人类将文档的重要部分解释为摘要的行为 [101, 103] 和 (iii) 试图结合两种方法中最好的方法的混合方法 [37, 77]。直观地说，抽取式摘要方法是一种更简单的机器学习任务，可以被认为是一种将词汇片段单元（例如句子）提取到摘要中的分类和/或排序问题。相比之下，抽象摘要需要通过重新排列原始文本中的单词和短语或设计新颖的措辞来将文档的重要思想转述为摘要，同时保持生成的摘要与原始文档的事实一致性。

由于抽取式摘要方法仅提取和排列它认为显着的原始文本并且不改变原始文本，因此它具有生成与源文档事实上一致的摘要的好处[21]。然而，由于基于人的摘要通常涉及将想法和概念解释为更短、更简洁的句子，这种方法的提取句子通常包含冗余和无信息的短语 [42]。虽然存在将源文档分解为比句子更低的词汇单元（例如，基本话语单元）[120] 的提取摘要模型，但由于输入文档的极端长度，它们通常不适用于长文档摘要域。

另一方面，模仿人类编写摘要的方式，抽象摘要方法呈现出生成流畅、简洁且与源文档相关的摘要的蓝天潜力[103]。它还可以根据用户的需求将外部知识合并到摘要中[81]。然而，在目前的发展阶段，由最先进的抽象模型生成的摘要通常包含大量与源文档实际上不一致的内容，从而限制了其在商业环境中的应用 [8, 62]。

最后，针对当前模型架构和设计的限制，混合摘要方法与抽象摘要方法的区别仅在于它接受原始输入文档的精心选择的子集，而不是原始形式的整个输入文档[ 37, 94]。这个额外的步骤减轻了抽象摘要模型的负担，这些模型必须同时生成摘要摘要并选择重要内容。这种方法更常用于长文档摘要领域，因为当前模型仍然无法（a）对极长文本进行推理 [77, 82] 和/或（b）遭受内存复杂性问题和硬件限制，使其无法处理长输入文本 [49, 127]。

B. 一般分类法

在每个长文档摘要模型中，本文**将模型分解为两个不同的组成部分：（i）主要架构和（ii）其机制。**主架构是指模型使用的核心框架结构，其机制是模型对主架构实施的不同设置或修改。两种不同的模型可能使用相同的主要架构，但使用不同的机制实现，反之亦然。例如，使用基于图形的主要架构的模型可能会使用不同的编码机制来向量化输入文档的句子。以下描述了摘要模型的各种主要架构，以及以前的工作在生成长文档摘要所采用的机制方面有何不同。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VTszndPj-1657717053413)(asset/image-20220713173626153.png)]

4.2 Main Architecture and its Mechanisms

在寻找摘要系统的最佳架构设置时，研究领域从主要架构和机制的许多不同的新颖设计开始，但往往会趋向于一些通常最有效的想法，直到另一个突破性的想法这超越了以前系统的性能，并且循环重复。

图架构：

对于抽取式摘要方法，经典的图架构涉及将文档映射到图网络的两个阶段过程，其中顶点是句子，边是这些句子之间的相似性，并提取 top-k 句子。根据每个句子的图中心性评分对句子进行排名 [29, 83]。由于（a）在计算句子之间的相似性之前对句子进行编码或向量化以及（b）计算每个句子的中心度得分有很多不同的方法，因此涉及这种架构的研究通常仅在这两种机制上有所不同。例如，对于前一种机制，过去的图架构 [29, 83] 根据单词出现或词频逆文档频率 (Tf-Idf) 对句子进行编码，而今天的图架构 [69, 135] 使用最先进的预训练模型编码句子。另一方面，为了改进中心度评分机制，PacSum [135] 和 FAR [69] 根据其他句子是在它之前还是之后来调整句子的中心度得分，而 HipoRank [25] 利用包含的语篇结构通过使用位置和部分偏差调整中心性得分。一般来说，给定原始源文档中的一组句子𝐷 = {𝑠1, 𝑠2, …, 𝑠𝑚},句间相似关系表示为𝑒𝑖𝑗 = (𝑠𝑖 , 𝑠𝑗) ∈ 𝐸 where 𝑖 ≠ 𝑗,下面说明了上述计算每个句子评分的架构：
$\sum_{𝑗 ∈ {1,...,𝑖−1,𝑖+1,...,𝑚}} 𝑒𝑖𝑗 ∗ 𝐵𝑖𝑎𝑠(𝑒𝑖𝑗)$
每个句子之间的相似度使用点积或余弦相似度等相似度度量来计算，句子使用向量化Tf-Idf 或 BERT 表示值。最终摘要是通过提取按𝑐𝑒𝑛𝑡𝑟𝑎𝑙𝑖𝑡𝑦(𝑠𝑖) 排名的 top-k 句子生成的。重要的是，虽然还有其他经典架构 [38, 112]，但图架构值得在这里单独提及，因为 (a) 它仍然是其他高级架构的强大基线，(b) 它可以有效地结合外部知识作为计算句子重要性的归纳（inductive）偏差，并且 © 当与当前最先进的预训练模型集成时，它在长文档无监督提取摘要设置中实现了最先进的结果[25, 69]。最后，除了可以扩展到长文档摘要任务的多句子压缩方法 [6, 54, 132] 之外，还没有针对长文档抽象摘要的经典基于图的架构的适用工作。
其他经典架构：

在自动化、非神经文本摘要模型的早期工作中，由于抽象摘要任务的难度，过去的研究主要集中在提取摘要方法上。测试的主要架构范围从支持向量机 [12, 106]、贝叶斯分类器 [64]、决策树 [57, 78] 到基于引用网络的摘要 [95]。当在长文档摘要设置的各种基准上比较模型性能时，保持相关性的是LSA[38]，它基于奇异值分解(SVD)，以及SumBasic[112]，它根据简单的平均单词出现概率对句子进行排名。
循环神经网络：

Cheng 和 Lapata [15] 提出了使用具有连续表示的神经网络而不是传统技术 [58, 124] 上的预训练词嵌入的提取摘要。该模型实现了一个带有注意力机制的 RNN 编码器-解码器架构，以在句子提取过程中定位焦点区域。然而，由于缺乏大规模的长文档数据集以及 RNN 无法捕获跨长输入文本的长期时间依赖性，直到 Xiao 和 Carenini [118] 才尝试实现 LSTM-minus（a RNN 的变体）解决长文档摘要任务。典型的长文档摘要系统，它通过将节级和文档级表示编码到每个句子中来合并源文档的话语信息（即节结构），以显着提高模型性能。皮洛特等人。 [94] 还提出了两种不同的 RNN 变体，用于长文档摘要的提取摘要。他们没有使用预训练的词嵌入，而是实现了分层 LSTM 来分别编码单词和句子。

当谈到抽象摘要方法时，Celikyilmaz 等人。 [10] 提出了多重通信代理来解决长文档摘要的任务。然而，与其他更简单的架构相比，这种方法在将第一个大规模数据集引入长科学文档后并没有获得显着的吸引力。连同两个最常用的长科学文档数据集 arXiv 和 PubMed 的贡献，Cohan 等人。 [20] 提出了一种 LSTM 编码器-解码器架构，其中解码器处理源文档的每个section，以确定在处理每个单词之前的section级注意力权重。虽然类似的架构已在先前的工作中广泛使用，但这项工作有效地结合了适合长文档摘要任务的话语信息。
Transformers:

2017 年提出的 Transformer 模型与基于 Transformer 模型本身的预训练双向编码器表示 (BERT) 模型一起席卷了 NLP 领域 [23, 113]。与其他 NLP 任务一样，随后的摘要模型架构已经发生了重大变化，以利用这两个重要的想法。重要的是，BERTSum [74] 表明，通过修改 BERT 分割嵌入，它不仅可以捕获句子对输入，还可以捕获多句子输入。 BERTSum 模型可以有效地解决抽取式和抽象式摘要任务。 BERTSum 提出的提取摘要模型涉及在微调的 BERT 之上堆叠基于 Transformer 的分类器以选择和提取显着句子，而抽象摘要模型涉及经典的编码器-解码器 Transformer 框架，其中编码器是微调的 BERT，而解码器是一个随机初始化的 Transformer，它以端到端的方式共同训练。虽然有效，**但由于 BERT 的输入长度限制为 512 个标记，该架构无法用于解决长文档摘要任务。**在本次调查中，我们将 Transformer 定义为主要架构，并将与 Transformer 模型相关的设置定义为包括使用不同类型的预训练模型的机制。由于 Transformer 已经有效地取代了两种摘要方法中的大多数主要架构，成为最先进的模型，因此在 4.3 节中将彻底讨论在长文档摘要上下文中应用的各种机制。

4.3 基于 Transformer 的架构的机制

基于 Transformer 的模型在 NLP 领域的广泛任务中无处不在。与这一发展相一致，长文档摘要模型中的最新工作通常涉及使用相同的 Transformer 基础架构，但具有不同的提议机制。这些基于 Transformer 的模型涉及实现具有长文档适应的新机制，以确保可以有效地解决总结具有显着更长输入序列文本的文档的任务。下面描述了提取、抽象和混合基于 Transformer 的摘要模型使用的机制，并概述了图 3 所示的抽象和混合摘要模型使用的机制。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-m3pCgZeQ-1657717053418)(asset/image-20220713174003825.png)]

A. Extractive Transformer.

由于 Transformer 及其预训练模型针对短文档设置进行了优化，因此如果未进行适当微调，它们可能无法很好地推理长文本序列。为此，崔等人。 [22] 提出将神经主题建模与 BERT 结合起来，在整个文档中学习主题增强的句间关系。尽管如此，内存复杂性和输入令牌长度限制的问题并未得到解决，并且在此研究设置下重要的源文本被截断。最近，Cui 和 Hu [21] 提出了一种记忆网络，它结合了图注意力网络和门控循环单元，通过沿整个源文档滑动窗口来动态选择重要句子。这种方法可以有效地将预训练的 BERT 模型集成到长文档摘要任务中，方法是限制其在每个窗口内的使用，其中窗口大小设置为小于或等于 512 个标记。

B. Abstractive Transformer.

General Sequence-to-Sequence Pre-training Task

自 BERT [23] 出现以来，已经引入了具有不同预训练任务的各种大规模模型。由于抽象方法的摘要自然是序列到序列的任务，因此具有序列到序列目标任务的预训练模型比仅编码器（例如，BERT/RoBERTa）或仅解码器-（例如，GPT-2/GPT-3）预训练模型更适合它。在摘要领域，双向和自回归转换器 (BART) [66] 和文本到文本传输转换器 (T5) [96] 是两个最广泛使用的序列到序列预训练模型。 BART 在重建任意损坏文本的自我监督任务上进行了预训练，而 T5 在无监督和监督目标上进行了预训练，例如令牌掩蔽以及翻译和摘要。有趣的是，尽管在短文档域 [100] 中取得了成功，但长文档摘要域中的监督 Transformer 模型都没有实现具有 T5 预训练任务的摘要器。
Gap-Sentence Generation (GSG) Pre-training Task 间隔句生成预训练任务

除了像 BART 和 T5 这样的广义预训练任务之外，PEGASUS [129] 还试图通过具有特定于摘要任务的目标的大规模预训练来显着推进抽象摘要领域的进展。所提出的模型是在两个大规模数据集（C4 和 HugeNews）上通过间隔句生成预训练任务进行自我训练的。间隔句生成预训练任务与一般摘要任务非常相似，通过自我监督模型生成在给定文档中完全被屏蔽（masked）的句子。在 PEGASUS 模型发布时，该模型在 12 个不同的基准数据集（包括长文档 arXiv 和 PubMed 数据集）上有效地实现了最先进的结果。
Efficient Attentions

使用全注意力的普通 Transformer 模型的内存复杂度为 𝑂(𝑛 2 ).。此属性限制了它在许多领域的更广泛使用，包括长文档摘要。例如，为了规避 PEGASUS 的输入标记限制，**DANCER [37] 分别总结了长文档的每个部分，并将它们连接起来形成最终的总结。**由于并非所有基准数据集都包含诸如章节结构之类的话语信息，这限制了模型在许多长文档摘要设置中的使用。为此，研究人员提出了各种巧妙的想法来降低 Transformer 模型的内存和时间复杂度。需要较少内存的 Transformer 模型的变体通常被称为高效 Transformer [109, 110]，该机制被称为高效注意力 [49]。

Longformer [2] 结合局部注意力、步幅模式和全局内存来微调预训练的 BART，以有效地总结最大输入长度为 16,384 个标记的长文档，而不是原始 BART 模型的 1,024 个标记限制。该模型在长文档摘要和引入该模型的其他 NLP 任务一起取得了最先进的结果。 BigBird [127] 还通过使用与 Longformer 相同的注意修改和额外的随机模式在基于 Transformer 的抽象摘要器上实现了有效的注意机制，以在 ROUGE 分数方面实现匹配的性能结果。 Huang等人的一项重要工作。 [49] 在长文档摘要的背景下探索和比较了不同变体的高效transformer的性能。
Prompt-Engineering

GPT-3 模型 [7] 有力地证明了大规模预训练语言模型可以在零样本和少样本实验设置中的众多下游语言任务上取得令人印象深刻的结果。不是以传统方式微调特定任务的语言模型，而是为 GPT-3 创建自然语言提示和任务演示来推断和完成任务。重要的是，这不同于传统的标记方法，例如用于条件生成的标记或从 BERT 中获取 [CLS] 标记用于分类任务。提示工程是指采取额外的步骤来设计自然语言提示或模板，以针对特定任务优化预训练模型。图 4 说明了这一重要区别。
Signal Guidance

与需要针对给定任务的工程语言提示或模板的提示工程机制不同，信号引导机制涉及利用信号作为输入（啥是信号？），引导模型更好地识别和总结源文本的重要内容。使用这种方法，GSum [26] 模型实现了一个带有双编码器的微调 BART 模型，一个用于输入文档，另一个用于提取的信号，以及一个同时处理两种编码表示的解码器。 Ju 等人也使用了类似的基于信号的方法。 [55]实现了一个基于无监督管道的长文档摘要模型。
Discourse Bias

与信号引导机制类似，话语偏差涉及包含源文档的话语结构，例如句子的一部分，作为摘要系统的信号，以更好地识别和总结原始源文本中的重要内容[17, 122]。这种机制可以归类为信号引导，但由于其在基于 Transformer [37, 94] 和非 Transformer [20, 25] 的长文档摘要模型中的有效性和流行度而单独提及。与短文档不同，长文档通常包含语篇结构信息，例如目录、章节结构、参考文献等，以指导人类读者理解原始文档，以前的作品利用这些信息来实现最先进的结果.尽管如此，之前在长文档摘要领域的工作仅利用了基准数据集提供的话语信息，并且没有使用 RST 树 [79]和共指提及实现自动话语解析，因为难以为具有极端输入长度的文档构建有效的表示形式[52, 120]。

C. Hybrid Transformer - 内容选择 + 抽象摘要。

混合摘要方法与抽象方法的不同之处仅在于它采用精心选择的输入文档子集而不是整个输入文档。这个额外的步骤减轻了神经摘要器的负担，它们必须同时生成摘要摘要并选择重要内容。有些人还将利用混合方法的模型称为检索摘要模型，因为它涉及在总结之前检索长文档文本的子集[131]。 TLM+Ext [94] 首先通过限制 arXiv 数据集中的科学文章的输入来实现此方法，作为文档的介绍，使用提取摘要方法从原始文章中精心挑选的句子的子集，最后包括剩余的文本如果基于 Transformer 的解码器还有额外的空间。然而，鉴于序列到序列神经模型的有效性，这项工作的一个限制是它只使用解码器框架来生成最终摘要，而不是大多数后续工作关于抽象和混合摘要方法的编码器 - 解码器框架.因此，LoBART [77] 提出了一种混合摘要系统，该系统通过两个单独的步骤完成摘要生成，(i) 内容选择：使用多任务 RNN，从原始源文档中选择显着内容，直到总文本输出达到序列到序列的预训练 BART 模型的限制。 (ii) 抽象总结：使用具有高效transformer机制的预训练 BART 模型总结精心选择的子集。 SEAL [134] 提出了一种用于基于transformer的长文档摘要的通用编码器-解码器框架，并提出了一种抽象摘要系统，该系统选择显着内容并动态选择所选内容的片段供解码器参与和端到端地总结方式。然而，该架构并未尝试利用大多数摘要研究工作中使用的大规模预训练模型。最后，面对类似的问题，开放域问答和知识密集型语言任务的发展反映了与长文档摘要领域 [67, 91] 的进展的有趣平行。

4.4 Summary of Trends in Long Document Summarization Systems

表 2 总结了上述长文档摘要模型的趋势和发展。在长文档摘要域中使用的两个突出的基础架构是用于无监督抽取模型的基于图的排名算法和用于监督抽象模型的预训练 Transformer。虽然这两种架构最初都是在短文档上提出和测试的，但在结合新机制后，它们可以有效地适应总结长文档。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RADkga3f-1657717053421)(asset/image-20220713191537630.png)]

发现 1. 具有话语偏差的基于图的提取模型：已发现基于经典图的无监督提取模型会受到选择相似句子的影响，这会导致带有冗余句子的摘要 [69]。为此，HipoRank [25] 通过在计算中心性评分时包含 ArXiv/PubMed 的截面信息作为归纳偏差，实现了基于图形的无监督提取摘要架构，以实现最先进的结果。话语偏差机制通常被其他提出的摘要模型所包含，包括具有 RNN 和 Transformer 基础架构的模型。

**发现 2. 抽象摘要模型的预训练任务：**有趣的是，尽管有其他预训练的序列到序列模型，例如 T5 [96]，但 BART 和 PEGASUS 是仅有的两个使用的基于 Transformer 的预训练模型用于长文档摘要 [66, 129]。然而，由于两个预训练模型都是在短文档上训练的，它们的输入限制为 1,024 个标记。要处理超过此限制的长文档，预训练的 Transformer 必须结合长文档机制来扩展输入限制。

**发现 3. Transformer 的长文档机制：**由于预训练模型通常在输入限制长度在 512 到 1,024 [23、66] 之间的大规模数据集上进行训练，因此这些基于 Transformer 的预训练模型针对短文档语言进行了优化任务而不是长文档。没有任何长文档机制来使这些模型适应长文档摘要任务，Meng 等人。 [82] 表明 BART 不能有效地总结长文档。除了话语偏差机制，我们观察到（a）有效的注意力和（b）内容选择机制是两个最值得注意的长文档机制。由于内容选择机制需要一个单独的检索器来从源中提取显着内容（即混合方法），我们将具有内容选择机制的 Transformer 模型区分为检索-然后汇总模型 [131] 和没有这种机制的纯编码器-解码器 Transformer作为端到端模型for the rest of this work.。最后，同样重要的是要注意这两种机制可以在单个架构中联合实现，其中内容选择机制将提取更长的输入子集，由具有高效注意力的 Transformer 处理 [77]。

5 MULTI-DIMENSIONAL ANALYSIS OF LONG DOCUMENT SUMMARIZERS

鉴于上一节中基于图的无监督提取模型和基于 Transformer 的监督抽象模型的重要发现，我们设计了一个实验，旨在彻底了解这些架构及其机制流行背后的原因。我们的实验在 arXiv 基准数据集上测试了基于图的提取和基于 Transformer 的抽象摘要架构及其机制。 arXiv 数据集中的文档平均长度为 6,446 个标记。由于所提出的模型之间使用的架构差异很大（as the architectures used between the proposed models vary greatly.），因此没有检查监督提取方法的机制。

5.1 Implementation

5.1.1 Graph - Unsupervised Extractive.

为了研究合并长文档话语结构信息的效果，我们通过改变以下两种机制来试验四种无监督图模型：

Sentence Encoder Mechanism: 源文本的句子使用词频-逆文档频率 (Tf-Idf) [53] 或 BERT SentenceTransformer [98] 进行编码。
Discourse Bias Mechanism: 对于实现 Tf-Idf 或 BERT 句子编码器的两种模型，我们试验了一个具有长文档话语偏差机制的模型和一个没有偏差的模型。对于没有话语偏差机制的模型，每个句子的中心度得分是基于其他句子之间余弦相似度的总和来计算的。对于具有话语偏见机制的模型，实现的机制遵循 Dong 等人的工作。 [25]。对于每个句子，我们根据每个部分中的句子位置调整中心性分数𝑐𝑖𝑛𝑡𝑟𝑎 (𝑠𝑖)，句子在文档中的部分位置（section position）𝑐𝑖𝑛𝑡𝑒𝑟 (𝑠𝑖)。更接近section和文档边界的句子将被赋予更高的重要性。每个句子的“话语感知”中心度得分为：
$Font metrics not found for font: .$
其中 $Font metrics not found for font: .$ 是区间中心度的加权因子。跟随原作者，我们根据验证集微调权重因子。为了确保可比性，所有无监督抽取模型的摘要的最大长度设置为 242 个标记。

5.1.2 Transformer - Supervised Abstractive.

为了研究当前最先进的抽象神经摘要器，我们对两种不同的预训练 Transformer 进行了实验，BART 和 PEGASUS。对于 BART，我们从两种常见方法的角度分析长文档机制：

端到端：我们试验了三种端到端 BART 模型。首先，具有完全自注意力的 vanilla BART 模型将截断任何超过 1,024 个标记的输入文本。然后，两个 BART 模型具有高效的 longformer attention [2]，可以分别扩展到 4,096 和 16,384 个输入标记。使用和不使用有效注意力评估端到端 BART 的主要目标是评估当 BART 从短文档摘要器改编为长文档摘要器时生成摘要的质量如何受到影响，方法是允许它处理长输入序列完全自我关注的代价。为了实现，由于缺乏计算资源，我们只在 arXiv 上微调了原始 BART，并从原作者那里获得了在 arXiv 上训练的 longformer 的权重。
retrieve-then-summarize: 对于 BART 检索然后汇总模型，我们的实验完全遵循 [77]6 的 LoBART 实现。 LoBART 有两种变体：(a) 具有完全自我注意的 BART，它接收选定的输入文本子集，最大长度为 1,024 个标记；(b) 具有有效局部注意的 BART，其中子集输入的最大长度为 4,096 个标记。两种变体之间的唯一区别是在将原始源文本输入到 Transformer BART 模型之前要从原始源文本中检索的内容量。试验检索然后总结的BART模型的两个主要目标是评估：（1）内容选择机制在适应短文档 BART 来总结长文档中的有效性；（2）内容选择机制与有效的注意力机制相结合时是否提高了性能。

由于没有在 PEGASUS 上应用内容选择机制的现有框架，我们只试验了两个端到端 PEGASUS 模型：原始 PEGASUS7 和具有 BigBird 高效注意力的 PEGASUS8。这些模型的输入令牌限制分别为 1,024 和 4,096。 arXiv 基准测试中两种模型变体的预训练权重均直接从原作者处获得。

5.1.3 Assessing Model Outputs.

我们不像大多数摘要研究设置那样完全依赖 ROUGE 分数，而是使用四种不同的指标从三个重要维度 (D#) 分析模型摘要输出：相关性、信息性和语义连贯性。

略

5.1.4 Other Implementation Details.

对于所有实现的模型变体，arXiv 基准数据集上的训练、验证和测试样本拆分为 203,037/6,436/6,440，这对于所有先前的工作都是相同的，因为它们遵循原作者的相同配置 [20]。为了确保一致的预处理管道，我们在所有模型实现中都遵循 LoBART 的预处理 [77]。所有需要微调的模型都在具有 24 GiB GPU 内存的相同 RTX 3090 GPU 上进行训练。我们将 pyrouge 包用于 ROUGE 度量。

5.2 Results and Analysis

下面根据表 3 所示结果讨论实验结果。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kmlKyo6a-1657717053424)(asset/image-20220712163820204.png)]

基于图的无监督抽取和基于Transformer的监督抽象的实验结果。最好的结果用黑体字表示，第二高分的结果用下划线表示。Max令牌表示最大输入长度，超过此截止点的文本将被截断。LocalAttn表示本地关注，其中每个令牌只关注其相邻的1024个令牌。LongformerAttn和BigBirdAttn代表Longformer[2]和BigBird提出的有效注意力变体[127]。

5.2.1 Graph - Unsupervised Extractive.

发现 1. 全局词表示与上下文嵌入：使用 BERT 作为句子编码器机制提高了无监督摘要模型在相关性和信息量维度上的性能。我们假设这是由于BERT的语义推理能力，在计算相似性和中心性评分时，对含有信息但用词不同于其他重要句子的重要句子进行编码。这对于长文档尤其重要，因为它具有更高的压缩比，并且具有完全相同信息的句子在源文本中重复多次的可能性更高。因此，不使用语义丰富的编码对句子进行编码可能会导致摘要具有更多冗余。
发现 2. **话语偏差机制提高了相关性和信息量：**在计算句子中心性得分时包含位置和section偏差极大地提高了架构在长文档中捕获更多相关句子并生成更多信息摘要的能力，验证了我们在第 4 节中的假设。但是，由于抽取模型只是将抽取的句子组合起来，这些来自不同部分的句子很可能导致最终摘要输出的语义连贯性下降。

5.2.2 Transformer - Supervised Abstractive.

发现 1. PEGASUS 预训练的收益递减：与 BART-only 模型相比，PEGASUS-only 模型在所有维度上都取得了更好的性能，这表明 PEGASUS 预训练机制有助于基于 Transformer 的模型在写作上更相关，内容丰富且语义连贯的摘要。由于与 BART [66, 129] 相比，PEGASUS 在不同的语料库上进行了预训练，因此 GSG 预训练任务和/或预训练语料库的差异是否有助于 PEGASUS 的卓越性能尚无定论。有趣的是，当输入序列长度被允许扩展到 4,096 并有效注意时，性能提升并不那么明显。这可能是由于使用的有效注意力机制不同，或者预测截断文本之外的显着内容的需求已经减少。
发现 2. Retrieve-then-summarize 模型的混合结果：对于两个retrieve-then-summarize BART 模型，我们看到在标准 ROUGE 评分指标方面取得了最先进的结果。结果表明，当 Transformer 模型处理检索器提取的较长子集时，所有维度都有所改善，证明了 Transformer 在计算标记之间的成对关系以识别显着内容方面的有效性。除了具有 longformer attention (16,384) 的 BART 之外，retrieve-then-summarize 模型在信息量方面也表现得更好，因为模型可以处理 arXiv 数据集中的整个源文档。然而，与其他抽象摘要模型相比，检索然后摘要模型在语义连贯性方面表现最差。由于内容选择机制不是以端到端的方式训练的，我们假设这是由于在推理阶段内容选择机制和编码器-解码器 Transformer 模型之间不可避免的脱节。此外，当内容选择机制提取的检索子集未按其原始形式排序时，**子集的不连贯性可能会向下级联到最终的摘要输出，**从而导致语义连贯性下降。这一发现还说明了以多维方式衡量模型性能的重要性，而不是完全依赖已发现具有重要局限性的 ROUGE 分数 [3, 61]。
发现 3. Transformer 在长序列上的推理能力：保持预训练的 BART 模型不变，扩展预训练的 Transformer 的总输入标记限制提高了摘要器生成更相关、信息量更大且语义连贯的摘要的能力。这一发现与 [49] 的人类评估实验一致，为这项工作中使用的自动评估指标提供了信心。仅处理 1,024 个标记的影响在摘要输出的信息量方面尤为明显，其中 BART (1,024) 的信息量分数比 BART (16,384) 低 10 分。重要的是，ROUGE 分数再次没有完全捕捉到这种性能差异，凸显了传统的总结研究设置仅使用 ROUGE 分数来衡量模型性能的局限性。最后，这一发现表明，与孟等人的结果不同。 [82]，我们的实验证明了 Transformer 可以对长序列进行推理，因为正确的配置可以针对特定的下游任务微调模型。

通过临时实验，我们系统地分析了长文档摘要领域的常用方法。实验结果表明，在无监督模型中利用长文档的显式话语结构并在预训练的 Transformer 模型上通过长文档适应处理更长的输入可以为长文档摘要任务产生有希望的结果。结果还表明，retrieve-then-summarize 模型可以在 ROUGE 得分方面达到最先进的结果，但可能会产生不太连贯的摘要。

5.3 Limitation of Experiment

最近的研究发现，最先进的抽象摘要模型的摘要输出在高达 30% 的摘要输出中包含事实不一致 [8, 62, 81]。为了解决上述问题，已经提出了各种模型和指标来衡量以源文档为条件的候选摘要的事实一致性 [27, 40]。尽管如此，由于提出的指标的局限性，包括预训练模型的输入长度限制、实现的难度和基准测试的性能差异 [89]，我们没有测量汇总输出的事实一致性，并且代表了一个重要的限制。上面的多维分析实验。尽管在对 Maynez 等人提出的文本蕴涵方法进行了各种修改之后，这仍然存在。 [81]，我们测试的模型几乎没有判别能力，因此没有被使用。跨相关性、信息性和语义连贯性维度使用的指标的稳健性也应谨慎解释。最后，该实验仅使用 arXiv 基准数据集进行，因为它是唯一公开所有预训练权重的数据集。为了鼓励在广泛的基准数据集和模型实施中进行类似的分析，我们的数据集和模型评估指标工具包可在 https://github.com/huankoh/long-doc-summarization 获得。

BUFANG_XF

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【综述阅读】An Empirical Survey on Long Document Summarization: Datasets, Models and Metrics

学术文章和商业报告等长篇文档已成为详细说明需要特别注意的重要问题和复杂主题的标准格式。因此，一个可以有效地将长文档压缩成简短文本以封装最重要信息的自动摘要系统对于帮助读者理解具有重要意义。最近，随着神经架构的出现，人们在推进自动文本摘要系统方面做出了重大的研究努力，并且出现了许多关于将这些系统扩展到长文档领域的挑战的研究。在本次调查中，我们全面概述了长文档摘要的研究，并对其研究环境的三个主要组成部分进行了系统评估：基准数据集、摘要模型和评估指标。对于每个组成部分，我们在长文档摘要的背景下组织文献，并进行实证
复制链接

扫一扫