Effificiently Summarizing Text and Graph Encodings of Multi-Document Clusters
1 摘要
本文提出了用有效总结文本和图编码处理MDS,还用BART预训练提高了MDS的性能,在这基础上还用Longformer的基础方法(Beltagyetal.,2020) ,避免了传统Transformers的二次内存增长。是基于非常大的文本数据上预训练编码器解码器的最新进展。
2 解决问题
现有研究的缺陷:
1)由于编码长度限制和二次内存增长,不能扩展;
2)它们不会共同探索替代的辅助信息,例如,从多文档集群中派生的语义图。
为了解决这些问题,作者提出了一种有效的图增强方法,使用预先训练的编码器-解码器转换模型,如图所示
3 模型
首先讨论用BART预训练的MDS模型;然后把Longformer approach (Beltagy et al., 2020)集成到BART模型中,为的是加长编码文档;最后,讨论作者将图编码集成到BART。
3.1 BART基线
(BART)(Lewisetal.,2019)是一个基于序列到序列变压器的模型,其中编码器是双向的,解码器是单向的。该模型的目的是从给定的噪声文本输入中重构实际输入。输入噪声策略包括token屏蔽、句子排列、文档旋转、token删除和文本填充。BART是用于对大量的文本进行预训练的。
作者使用预先训练过的BART模型(如上所述训练过),并在MDS数据集上对其进行微调。跟随Fabbri等人。(2019),我们将集群文档作为一个由特殊标记连接的单一字符串提供给BART编码器。
3.2 BART-Long
把Longformer approach引入BART模型,用于加长文档。这是通过将变压器( n 2 n^2 n2内存复杂度)中传统的 full self-attention 机制替换为一个基于稀疏上下文窗口的注意机制来实现的,它具有相对于文档长度的线性内存复杂度。此外,少量的token被选择来参加所有其他token,从而创建全局关注(global attention)以及基于本地上下文窗口的关注( the local context window-based attention)。
作者探索了这种方法的预训练的序列到序列的BART模型。作者将包括 local and global attention mechanisms在内的Longformer集成到BART模型中,称为BART-Long,对文档的编码比其最大令牌限制1024要长得多。为了更好地对来自多个文档的信息进行编码,作者在每一个句子后合并全局注意,并探索不同的上下文窗口大小以进行局部注意。
3.3 带图编码的BART
本文探索了将图编码集成到一个预先训练的BART模型与一个单独的图编码器。在利用来自预先训练的模型中的已有知识的同时,将图表示编码到预先训练的模型中。此外,利用3.2节中描述的BART-Long模型,以避免对图和文本信息编码时的输入长度限制。接下来,作者将描述如何将多个输入文档转换为统一的图表示,并稍后描述如何将这些信息编码为扩展的BART体系结构。
3.3.1 图构造
跟随Fan et al.(2019),执行了三个步骤,从多个输入文档构建一个统一的图:
1)首先,作者在每个文档中进行共同引用解析,并从所有输入文档中在句子级别提取开放的信息提取三联体(OIE)。每个OIE由句子的主-谓-宾组成。(如何识别句子的主谓宾,从而提取出来?)
2)在拥有所有的IOE后,作者构建一个以主语和宾语作为节点,谓语作为边的关系图。作者还计算了文档中每个单词的TF-IDF分数,这对于识别相似的短语和合并图中对应的节点非常有用。作者从所有匹配字符串的池中定义一个具有代表性的唯一字符串(作为一个节点),根据图的大小手动将TF-IDF匹配阈值设置为0.5。一旦构建了图,作者就会删除只有两个节点的集群(子图),从而创建一个合并的图。
3)作者把这个图转换成一个线性化的形式。为此,作者按照子图的大小遍历子图,在每个子图中,我们简单地从一个中心性最高的节点开始,并以宽度优先搜索的方法向下移动子图,以生成线性化的文本。作者将这些文本连接在一起,形成线性化的图文本。图3用线性化图的例子给出了一个概述,本文的图构造方法。其中用特殊的token,如:表示主语、
表示谓语、表示宾语、表示连接一对主语和宾语之间的多个谓语。
3.3.2 线性图模型
使用了两个编码器:(如图4)
-
通过预先训练好的BART编码器对文档的原文进行编码;
-
通过一个新的图编码器来编码线性化的图文本
设 x i x_i xi和