【笔记】Effificiently Summarizing Text and Graph Encodings of Multi-Document Clusters

本文提出了一种图增强方法,结合预训练的BART模型和Longformer,解决多文档摘要的长度限制和信息融合问题。通过构建语义图并线性化,再用额外的图编码器,实现对长文档的高效编码,提高摘要质量。
摘要由CSDN通过智能技术生成

Effificiently Summarizing Text and Graph Encodings of Multi-Document Clusters

1 摘要

本文提出了用有效总结文本和图编码处理MDS,还用BART预训练提高了MDS的性能,在这基础上还用Longformer的基础方法(Beltagyetal.,2020) ,避免了传统Transformers的二次内存增长。是基于非常大的文本数据上预训练编码器解码器的最新进展。

2 解决问题

现有研究的缺陷:

1)由于编码长度限制和二次内存增长,不能扩展;

2)它们不会共同探索替代的辅助信息,例如,从多文档集群中派生的语义图。

为了解决这些问题,作者提出了一种有效的图增强方法,使用预先训练的编码器-解码器转换模型,如图所示

在这里插入图片描述

图1:作者的双编码器方法,用图编码总结多文档集群。
The truncated concatenated text包含每个集群文档的开头;图包含来自完整文档的信息。

3 模型

首先讨论用BART预训练的MDS模型;然后把Longformer approach (Beltagy et al., 2020)集成到BART模型中,为的是加长编码文档;最后,讨论作者将图编码集成到BART。

3.1 BART基线

(BART)(Lewisetal.,2019)是一个基于序列到序列变压器的模型,其中编码器是双向的,解码器是单向的。该模型的目的是从给定的噪声文本输入中重构实际输入。输入噪声策略包括token屏蔽、句子排列、文档旋转、token删除和文本填充。BART是用于对大量的文本进行预训练的。

作者使用预先训练过的BART模型(如上所述训练过),并在MDS数据集上对其进行微调。跟随Fabbri等人。(2019),我们将集群文档作为一个由特殊标记连接的单一字符串提供给BART编码器。

3.2 BART-Long

把Longformer approach引入BART模型,用于加长文档。这是通过将变压器( n 2 n^2 n2内存复杂度)中传统的 full self-attention 机制替换为一个基于稀疏上下文窗口的注意机制来实现的,它具有相对于文档长度的线性内存复杂度。此外,少量的token被选择来参加所有其他token,从而创建全局关注(global attention)以及基于本地上下文窗口的关注( the local context window-based attention)。

在这里插入图片描述

各种注意机制的图片概述。每个块代表一个token。充满纹理的块具有global self-attention

作者探索了这种方法的预训练的序列到序列的BART模型。作者将包括 local and global attention mechanisms在内的Longformer集成到BART模型中,称为BART-Long,对文档的编码比其最大令牌限制1024要长得多。为了更好地对来自多个文档的信息进行编码,作者在每一个句子后合并全局注意,并探索不同的上下文窗口大小以进行局部注意。

3.3 带图编码的BART

本文探索了将图编码集成到一个预先训练的BART模型与一个单独的图编码器。在利用来自预先训练的模型中的已有知识的同时,将图表示编码到预先训练的模型中。此外,利用3.2节中描述的BART-Long模型,以避免对图和文本信息编码时的输入长度限制。接下来,作者将描述如何将多个输入文档转换为统一的图表示,并稍后描述如何将这些信息编码为扩展的BART体系结构。

3.3.1 图构造

跟随Fan et al.(2019),执行了三个步骤,从多个输入文档构建一个统一的图:

1)首先,作者在每个文档中进行共同引用解析,并从所有输入文档中在句子级别提取开放的信息提取三联体(OIE)。每个OIE由句子的主-谓-宾组成。(如何识别句子的主谓宾,从而提取出来?

2)在拥有所有的IOE后,作者构建一个以主语和宾语作为节点,谓语作为边的关系图。作者还计算了文档中每个单词的TF-IDF分数,这对于识别相似的短语和合并图中对应的节点非常有用。作者从所有匹配字符串的池中定义一个具有代表性的唯一字符串(作为一个节点),根据图的大小手动将TF-IDF匹配阈值设置为0.5。一旦构建了图,作者就会删除只有两个节点的集群(子图),从而创建一个合并的图。

3)作者把这个图转换成一个线性化的形式。为此,作者按照子图的大小遍历子图,在每个子图中,我们简单地从一个中心性最高的节点开始,并以宽度优先搜索的方法向下移动子图,以生成线性化的文本。作者将这些文本连接在一起,形成线性化的图文本。图3用线性化图的例子给出了一个概述,本文的图构造方法。其中用特殊的token,如:表示主语、

表示谓语、表示宾语、表示连接一对主语和宾语之间的多个谓语。

在这里插入图片描述

图3:本文的图构造。
3.3.2 线性图模型

使用了两个编码器:(如图4)

  1. 通过预先训练好的BART编码器对文档的原文进行编码;

  2. 通过一个新的图编码器来编码线性化的图文本

在这里插入图片描述

图4:本文的BART编码器和图编码器的方法概述。所有的变压器层都使用Longformer attention。我们对BART编码器使用预训练过的表示。

x i x_i xi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值