【笔记】Effificiently Summarizing Text and Graph Encodings of Multi-Document Clusters

最新推荐文章于 2024-09-27 10:11:28 发布

sun_yi_gui

最新推荐文章于 2024-09-27 10:11:28 发布

阅读量228

点赞数

分类专栏：笔记 NLP python 文章标签： python nlp

本文链接：https://blog.csdn.net/sun_yi_gui/article/details/121118479

版权

本文提出了一种图增强方法，结合预训练的BART模型和Longformer，解决多文档摘要的长度限制和信息融合问题。通过构建语义图并线性化，再用额外的图编码器，实现对长文档的高效编码，提高摘要质量。

摘要由CSDN通过智能技术生成

Effificiently Summarizing Text and Graph Encodings of Multi-Document Clusters

1 摘要

本文提出了用有效总结文本和图编码处理MDS，还用BART预训练提高了MDS的性能，在这基础上还用Longformer的基础方法(Beltagyetal.，2020) ，避免了传统Transformers的二次内存增长。是基于非常大的文本数据上预训练编码器解码器的最新进展。

2 解决问题

现有研究的缺陷：

1）由于编码长度限制和二次内存增长，不能扩展；

2）它们不会共同探索替代的辅助信息，例如，从多文档集群中派生的语义图。

为了解决这些问题，作者提出了一种有效的图增强方法，使用预先训练的编码器-解码器转换模型，如图所示

在这里插入图片描述

图1：作者的双编码器方法，用图编码总结多文档集群。 The truncated concatenated text包含每个集群文档的开头；图包含来自完整文档的信息。

3 模型

首先讨论用BART预训练的MDS模型；然后把Longformer approach (Beltagy et al., 2020)集成到BART模型中，为的是加长编码文档；最后，讨论作者将图编码集成到BART。

3.1 BART基线

(BART)(Lewisetal.，2019)是一个基于序列到序列变压器的模型，其中编码器是双向的，解码器是单向的。该模型的目的是从给定的噪声文本输入中重构实际输入。输入噪声策略包括token屏蔽、句子排列、文档旋转、token删除和文本填充。BART是用于对大量的文本进行预训练的。

作者使用预先训练过的BART模型（如上所述训练过），并在MDS数据集上对其进行微调。跟随Fabbri等人。（2019），我们将集群文档作为一个由特殊标记连接的单一字符串提供给BART编码器。

3.2 BART-Long

把Longformer approach引入BART模型，用于加长文档。这是通过将变压器( $n^2$ 内存复杂度)中传统的 full self-attention 机制替换为一个基于稀疏上下文窗口的注意机制来实现的，它具有相对于文档长度的线性内存复杂度。此外，少量的token被选择来参加所有其他token，从而创建全局关注(global attention)以及基于本地上下文窗口的关注( the local context window-based attention)。

在这里插入图片描述

各种注意机制的图片概述。每个块代表一个token。充满纹理的块具有global self-attention

作者探索了这种方法的预训练的序列到序列的BART模型。作者将包括 local and global attention mechanisms在内的Longformer集成到BART模型中，称为BART-Long，对文档的编码比其最大令牌限制1024要长得多。为了更好地对来自多个文档的信息进行编码，作者在每一个句子后合并全局注意，并探索不同的上下文窗口大小以进行局部注意。

3.3 带图编码的BART

本文探索了将图编码集成到一个预先训练的BART模型与一个单独的图编码器。在利用来自预先训练的模型中的已有知识的同时，将图表示编码到预先训练的模型中。此外，利用3.2节中描述的BART-Long模型，以避免对图和文本信息编码时的输入长度限制。接下来，作者将描述如何将多个输入文档转换为统一的图表示，并稍后描述如何将这些信息编码为扩展的BART体系结构。

3.3.1 图构造

跟随Fan et al.(2019),执行了三个步骤，从多个输入文档构建一个统一的图：

1）首先，作者在每个文档中进行共同引用解析，并从所有输入文档中在句子级别提取开放的信息提取三联体(OIE)。每个OIE由句子的主-谓-宾组成。（如何识别句子的主谓宾，从而提取出来？）

2）在拥有所有的IOE后，作者构建一个以主语和宾语作为节点，谓语作为边的关系图。作者还计算了文档中每个单词的TF-IDF分数，这对于识别相似的短语和合并图中对应的节点非常有用。作者从所有匹配字符串的池中定义一个具有代表性的唯一字符串（作为一个节点），根据图的大小手动将TF-IDF匹配阈值设置为0.5。一旦构建了图，作者就会删除只有两个节点的集群（子图），从而创建一个合并的图。

3）作者把这个图转换成一个线性化的形式。为此，作者按照子图的大小遍历子图，在每个子图中，我们简单地从一个中心性最高的节点开始，并以宽度优先搜索的方法向下移动子图，以生成线性化的文本。作者将这些文本连接在一起，形成线性化的图文本。图3用线性化图的例子给出了一个概述，本文的图构造方法。其中用特殊的token，如：_{表示主语、}

表示谓语、表示宾语、表示连接一对主语和宾语之间的多个谓语。

在这里插入图片描述

图3：本文的图构造。

3.3.2 线性图模型

使用了两个编码器：（如图4）

通过预先训练好的BART编码器对文档的原文进行编码；
通过一个新的图编码器来编码线性化的图文本

在这里插入图片描述

图4：本文的BART编码器和图编码器的方法概述。所有的变压器层都使用Longformer attention。我们对BART编码器使用预训练过的表示。

设 $x_i$ 和

最低0.47元/天解锁文章

sun_yi_gui

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录