长文本摘要架构总结

magic-hl

已于 2024-04-02 11:32:29 修改

阅读量8.4k

点赞数 31

文章标签： NLP

于 2024-04-01 23:12:52 首次发布

本文链接：https://blog.csdn.net/2301_79012932/article/details/137238179

版权

综述总结

2207.00939.pdf (arxiv.org)

一般来说，自动文本摘要可以概念化为具有三种方法：抽取式、抽象式和混合式。

提取摘要可能足以总结某些新闻文章，但不足以总结显着内容分布稀疏的长对话。这是因为虽然提取摘要方法始终与源文档事实一致，但它不会修改原始文本，因此缺乏生成流畅简洁摘要的能力。

ROUGE评分的核心思想是衡量候选摘要和真实摘要之间的词汇重叠，例如单词和短语。虽然它很有效，但最近的研究结果表明，ROUGE 分数与人类如何评估候选摘要的质量没有很好的相关性。

文本摘要文献主要探讨研究设置的三个关键方面：开发先进模型、发布新数据集和提出替代评估指标。

为了明确短文档和长文档之间的区别，我们从三个不同的基本方面概念化摘要任务问题：1）文档长度，2）Breadth of Content ，3）连贯程度。

抽取式：由于提取摘要方法仅提取和排列它认为重要的原始文本，并且不会改变原始文本，因此它具有生成与源文档事实上一致的摘要的好处[21]。然而，由于基于人的摘要通常涉及将想法和概念解释为更短、简洁的句子，因此这种方法提取的句子通常包含冗余且无信息的短语[42]。虽然存在将源文档分解为比句子更低的词汇单元（例如基本话语单元）的提取摘要模型[120]，但由于输入文档的极端长度，它们通常不应用于长文档摘要领域。

抽象式：最先进的抽象模型生成的摘要通常包含大量与源文档实际上不一致的内容，限制了其在商业环境中的应用。

混合式：同时生成摘要并选择重要内容。

图架构：对于提取摘要方法，经典的图架构涉及将文档映射到图网络的两阶段过程，其中顶点是句子，边是这些句子之间的相似性，并提取顶部𝐾句子。句子根据每个句子的图中心性评分进行排名 [29, 83]。由于有许多不同的方法（a）在计算句子之间的相似性之前对句子进行编码或向量化以及（b）计算每个句子的中心性得分，因此涉及此架构的研究通常仅在这两种机制上有所不同。例如，对于前一种机制，过去的图架构[29, 83]根据单词出现或术语频率逆文档频率（Tf-Idf）对句子进行编码，而今天的图架构[69, 135]则根据状态对句子进行编码最先进的预训练模型。另一方面，为了改进中心性评分机制，PacSum [135]和FAR [69]根据其他句子是在句子之前还是之后调整句子的中心性分数，而HipoRank [25]则利用包含的话语结构通过位置偏差和区域偏差调整中心性得分。一般来说，给定原始源文档中的一组句子，𝐷 = {𝑠1, 𝑠2, ..., 𝑠𝑚}，句子间相似关系表示为 𝑒𝑖𝑗 = (𝑠𝑖, 𝑠𝑗) ε 𝐸，其中𝑖 ≠ 𝑗 。使用点积或余弦相似度等相似性度量来计算每个句子之间的相似性，并使用 Tf-Idf 或 BERT 表示值对句子进行向量化。最终的摘要是通过提取按𝑐𝑒𝑛𝑡𝑟𝑎𝑙𝑖𝑡𝑦(𝑠𝑖)排名的前k个句子生成的。重要的是，虽然还有其他经典架构 [38, 112]，但图架构在这里值得单独提及，因为（a）它仍然是其他先进架构的强大基线，（b）它可以有效地结合外部知识作为计算句子重要性的归纳偏差，并且（c）与当前最先进的预训练模型集成时，它在长文档无监督提取摘要设置中实现了最先进的结果[25, 69]。最后，除了可以扩展到长文档摘要任务的多句子压缩方法[6,54,132]之外，还没有针对长文档摘要摘要的基于经典图的架构的适用工作。

RNN架构：LSTM 编码器-解码器架构

transformer：无法解决长文本问题（512 tokens）

基于transformer的机制：

Extractive Transformer：与其他模型结合

Abstractive Transformer：1) General Sequence-to-Sequence Pre-training Task，2) Gap-Sentence Generation (GSG) Pre-training Task

Efficient Attentions：降低计算复杂度和内存

Prompt-Engineering：优化预训练模型。

Signal Guidance：信号引导与需要针对给定任务设计语言提示或模板的提示工程机制不同，信号引导机制涉及利用信号作为输入来引导模型更好地识别和总结源文本的重要内容。使用这种方法，GSum [26] 模型实现了一个微调的 BART 模型，该模型具有双编码器，一个用于输入文档，另一个用于提取信号，以及一个负责两种编码表示的解码器。

Discourse Bias：与信号引导机制类似，话语偏差涉及将源文档的话语结构（例如句子的部分）作为摘要系统的信号，以更好地识别和总结原始源文本中的重要内容。

Hybrid Transformer - Content Selection + Abstractive Summarization.：混合摘要方法与抽象方法的唯一不同之处在于它采用精心选择的输入文档子集而不是整个输入文档。

Longformer

Sliding window attention设定了一个窗口k ，它规定序列中的每个token以自己为中心只能看到 k个token，其左右两侧能看到 w/2个token，因此它的时间复杂度是 O(n x k) k<<n。对于这种方式，会导致无法捕捉全局信息吗？不会，因为模型是由多层叠起来的，像CNN的卷积核，会通过深层网络来增加感受野。

普通的Sliding Window Attention只能考虑到长度为 k 的上下文，在不增加计算符合的情况下，Longformer提出了Dilated Sliding Window。在进行Self-Attention的两个相邻token之间会存在大小为 d 的间隙，每个token的感受野范围可扩展到 d x k 。在第 m 层，感受野的范围将是 m x d x k。

Global Attention它设定某些位置的token能够看见全部的token，同时其他的所有token也能看见这些位置的token，相当于是将这些位置的token"暴露"在最外面。这些位置的确定和具体的任务有关。例如对于分类任务，这个带有全局视角的token是"CLS"；对于QA任务，这些带有全局视角的token是Question对应的这些token。(就是要把prompt拿给所有注意力看到，不然它不知道它在做什么任务)

Google Big Bird

深入理解 BigBird 的块稀疏注意力 (huggingface.co)

BigBird 依赖于 块稀疏注意力 而不是普通注意力 ( 即 BERT 的注意力)，与 BERT 相比，这一新算法能以低得多的计算成本处理长达 4096 的序列。在涉及很长序列的各种任务上，该模型都实现了 SOTA，例如长文档摘要、长上下文问答。BigBird 注意力只是 BERT 完全注意力的一个近似，因此我们并不纠结于让它比 BERT 完全注意力更好，而是致力于让它更有效率。

在使用标准的 BERT 类注意力时可能会遇到以下几个主要问题:

每个词元真的都必须关注所有其他词元吗？联想卷积核是非常小的
为什么不只计算重要词元的注意力？
如何决定哪些词元重要？
如何以高效的方式处理少量词元？

长程依赖关系: 对某些任务而言，捕获词元间的长程关系至关重要。例如，在问答类任务中，模型需要将上下文的每个词元与整个问题进行比较，以便能够找出上下文的哪一部分对正确答案有用。如果大多数上下文词元仅关注其他上下文词元，而不关注问题，那么模型从不太重要的上下文词元中过滤重要的上下文词元就会变得更加困难。

BigBird 提出了两种允许长程注意力依赖的方法，这两种方法都能保证计算效率。

全局词元: 引入一些词元，这些词元将关注每个词元并且被每个词元关注。例如，对 “HuggingFace is building nice libraries for easy NLP” ，现在假设 'building' 被定义为全局词元，而对某些任务而言，模型需要知道 'NLP' 和 'HuggingFace' 之间的关系 (注意: 这 2 个词元位于句子的两端); 现在让 'building' 在全局范围内关注所有其他词元，会对模型将 'NLP' 与 'HuggingFace' 关联起来有帮助。
随机词元: 随机选择一些词元，这些词元将通过关注其他词元来传输信息，而那些词元又可以传输信息到其他词元。这可以降低直接从一个词元到另一个词元的信息传输成本。

BigBird 块稀疏注意力

ITC 与 ETC

BigBird 模型可以使用 2 种不同的策略进行训练: ITC 和 ETC。 ITC (internal transformer construction，内部 transformer 构建) 就是我们上面讨论的。在 ETC (extended transformer construction，扩展 transformer 构建) 中，会有更多的全局词元，以便它们关注所有词元或者被所有词元关注。

ITC 需要的计算量较小，因为很少有词元是全局的，同时模型可以捕获足够的全局信息 (也可以借助随机注意力)。而 ETC 对于需要大量全局词元的任务非常有帮助，例如对问答类任务而言，整个问题应该被所有上下文关注，以便能够将上下文正确地与问题相关联。（需要手动改变全局词元）

ETC局部/全局机制的主要思想是在注意力机制中引入局部稀疏性，以减少扩展到长输入时的二次成本。具体来说，ETC 只允许输入（称为长输入）中的令牌关注局部邻域，并添加称为全局存储器的辅助输入，通过该辅助输入，长输入中的令牌可以间接地相互关注。这种机制的一个缺点是它需要为每个新问题设计这种辅助全局输入。

注意: BigBird 论文显示，在很多 ETC 实验中，随机块的数量设置为 0。考虑到我们上文图解部分的讨论，这是合理的。

LongT5模型

(1)增加输入长度或(2)增加模型大小都可以提高基于transformer的神经模型的性能。但这篇文章探索了同时缩放输入长度和模型大小的影响。

整合了长输入变压器(ETC)的注意力思想。是一种新的注意力机制，我们称之为瞬态全局Transient Global (TGlobal)，它模仿ETC的局部/全局注意力机制，但不需要额外的侧输入。

相对于相同输入长度的充分关注，这种机制只会导致性能略有下降，但允许模型扩展到更大的输入长度，从而显着提高性能。

采用 PEGASUS（Zhang et al,2019a）模型中的预训练策略。（做摘要生成的）

为了完成长文本首先要使用稀疏注意力来降低计算复杂度。对于局部注意力，简单地将 T5 中的编码器自注意力操作替换为 ETC 中实现的稀疏滑动窗口局部注意力操作。对于给定的局部半径 r，此公式仅允许每个标记参与其左侧和右侧的 r 个标记。我们发现 r = 127 在实践中就足够了，其中 r 是左侧和右侧相邻标记的数量。

为了允许输入标记在编码器的每一层中在比局部注意力的局部半径更长的范围内相互交互，引入了瞬态全局注意力，作为 ETC 全局局部注意力在“固定块”模式中的修改。也就是说，我们将输入序列划分为 k 个 token 的块，对于每个块，我们通过对块中每个 token 的嵌入求和（然后标准化）来计算全局 token。

现在，在计算注意力时，我们允许每个输入标记不仅像本地注意力一样关注附近的标记，而且还关注每个全局标记。我们将这些全局标记称为瞬态标记，因为与类似 ETC 的全局局部注意模式相比，这些标记是在每个注意操作中动态构建（并随后丢弃）的，从而消除了决定哪些输入标记应被视为“全局”的要求。TGlobal Attention 仅引入了几个新参数：（1）T5 风格的相对位置偏差，表示从输入令牌的块到它所关注的每个全局令牌的块的距离，以及（2）T5 风格的层标准化参数，用于标准化每个全局令牌的嵌入。

思考：右边这个相当于隐变量？

CoLT5

2303.09752.pdf (arxiv.org)

ETC和LongT5主要聚焦于减少Attention的计算量来提高模型支持上下文长度的上限。但对于大模型来说，其主要计算量在FNN上。COLT5提出了在FNN和Attention部分进行选择性计算，把更多计算资源投入到更重要的token中。

COLT5包含两个计算分支：Light branch 和Heavy branch。Light branch的MLP隐藏层维度较小、attention的 head更少且只有local attention。Heavy branch的MLP有更大隐藏层维度，并且attention head较多，且都是full attention，结构见下图。

首先，所有的token都会经过Light branch；同时，对当前层的表征乘以一个投映矩阵后得到路由分数并选择一个固定比例token来输入到heavy branch模块，即仅挑选一些很重要的token输入到Heavy branch，以此来减少计算量。特别的，作者对FNN、Attention Q和Attention K使用了3个不同的router。

LoBART

2105.03801.pdf (arxiv.org)

ART 和 LoBART。我们使用公开发布的 BART 模型（Lewis 等人，2020）在 CNNDM（Hermann 等人，2015）上进行微调。4 遵循 Sparse Transformer（Child 等人，2019）和 Longformer（Beltagy 等人，2019）中的局部窗口注意力机制2020），我们将编码器中的自注意力机制修改为局部自注意力（见图2），我们将这种局部自注意力BART称为LoBART。它具有与 BART 相同的架构，例如参数的数量，除了我们通过翻转复制 BART 的位置嵌入来将位置嵌入扩展到 1,024 以上，以实现更平滑的过渡。

分层 RNN。内容选择模型基于分层编码器-解码器架构，该架构已被证明在会议和长文档摘要方面有效（Cohan 等人，2018；Zhao 等人，2019；Li 等人，2019）。该模型由单词级和句子级 GRU 组成（Cho 等人，2014）。我们在句子级 GRU 之上添加一个线性层来执行提取标记。句子级注意力机制和提取标签模块构成了我们的多任务内容选择（MCS）。

pegasus

一种为摘要生成的预训练架构，将重要句子转换为decoder，这样输入长度就可以减小了。基于这种架构，并不能有很长的输入。

TextRank

TextRank思想借鉴了网络排序算法PageRank，是一种用于文本的基于图的排序算法。通过将文本分割为若干个句子，构建节点连接图，用句子间相似度作为边的权重，通过循环迭代计算句子的TextRank值，最后抽取Rank最高的句子，组合形成文本摘要。TextRank将文本中的句子分别看作节点，如果两个句子有相似性，这两个节点间会生成一个无向有权边。

pacsum

PACSUM是TextRank的升级版，在句子表示中引入了BERT模型来捕获句子的深层语义信息，相当于构建了更加有效的关系图。另外，PACSUM使用有向图代替无向图，提高模型准确率。

Leveraging Information Bottleneck for Scientific Document Summarization(IBSumm)

2021.findings-emnlp.345.pdf (aclanthology.org)

信息瓶颈（IB）原理：是在另一个相关信号的指导下压缩一个信号。 BottleSum (West et al, 2019) 成功地将 IB 应用于短文档的摘要任务。他们的模型仅通过删除每个句子中的单词同时保留所有句子来生成摘要，而不考虑句子在文档级别的重要性。它不适合长科学文档摘要，因为它会保留所有句子，从而导致大量冗余。

DANCER

提出了一种新颖的分而治之方法，用于长文档的神经摘要。我们的方法利用文档的篇章结构，并使用句子相似性将问题分解为较小的摘要问题的集合。特别是，我们将一个长文档及其摘要分解为多个源-目标对，这些对用于训练一个模型，该模型学习分别总结文档的每个部分。然后将这些部分摘要组合起来以生成最终的完整摘要。通过这种方法，我们可以将长文档摘要问题分解为更小、更简单的问题，降低计算复杂性并创建更多训练示例，同时与标准方法相比，目标摘要中包含更少的噪声。我们证明，这种方法与不同的摘要模型（包括序列到序列 RNN 和 Transformer）相结合，可以提高摘要性能。我们最好的模型在两个公开可用的学术文章数据集中取得了与最先进的结果相当的结果。 Divide-AND-ConquER (DANCER) 摘要，这是一种自动将文档摘要拆分为多个部分并将每个部分与文档的相应部分配对的方法，以便创建不同的目标摘要。