【论文阅读】GraphFormers: GNN-nested Transformers for Representation Learning on Textual Graph

本文探讨了GraphFormers模型,它通过融合预训练语言模型和分层GNN,解决了级联模型在文本图表示学习中的局限。通过渐进学习策略,模型能更有效地整合信息,提升节点嵌入的质量。文章还提出了单向图聚合和两阶段训练策略,以优化计算效率和模型训练效果。
摘要由CSDN通过智能技术生成

题目

一、摘要

在文本图上的表示学习是基于单个的文本特征和邻域信息为节点生成低维嵌入。最近在预训练语言模型和GNN上的突破推动了相应技术的发展。现有的工作主要依赖于级联模型体系结构:1)节点的文本特征由语言模型独立编码;2)将文本嵌入通过GNN进行聚合。
但是,由于对文本特性的独立建模,上述体系结构受到了限制。

  1. GraphFormers中分层GNN组件嵌套与语言模型的transformer块一起。利用该架构,将文本编码和图聚合融合成一个迭代的工作流,从全局的角度可以准确地理解每个节点的语义。
  2. 引入了一种渐进学习策略,对操作数据和原始数据进行连续训练,以增强其在图上整合信息的能力。
    使用预先训练的语言模型可以更精确地捕获文本的底层语义;使用图形神经网络可以有效地聚合邻居节点,以获得更多信息的节点。

二、研究现状

根据GraphSage和PinSage的建议,文本特征可以通过文本编码器独立建模,并通过后置的gnn进一步聚合,用于最终的节点嵌入。
上述组合方式被称为“级联Transformer-GNN”体系结构,因为语言模型部署在GNN组件的前面。采用上述架构,文本编码和图聚合分两个连续的步骤执行,在生成文本嵌入时,节点之间不存在信息交换。但是,考虑到所链接的节点是相互关联的,其底层语义可以相互增强,上述工作流是存在缺陷的。
GraphFormers突出显示了GNN和语言模型的融合。
结构
在GraphFormers中,GNN组件被嵌套在语言模型的转换器层(TRM)旁边,其中文本编码和图聚合被融合为一个迭代的工作流。在每次迭代中,所链接的节点将在分层的GNN组件中相互交换信息;因此,每个节点都将增加其邻域信息。Transformer组件将增节点特征,可以为下一次迭代生成信息越来越丰富的节点表示。
与级联体系结构相比,GraphFormers对图上的跨节点信息进行了更充分的利用,显著提高了表示质量。

在许多情况下,中心节点本身可以“提供足够的信息”,在那里训练任务可以在不利用邻域信息的情况下完成。因此,GraphFormers最终可能会出现训练不足的GNN。建议逐步训练模型:
第一轮训练是用操纵数据进行的,其中节点被随机污染;
第二轮训练回到未受污染的数据。

三、模型框架

在这项工作中,我们处理文本图数据,其中每个节点x都是一个文本。节点x及其相邻节点Nx记为Gx。模型根据节点x自身的文本特征及其邻域Nx的信息来学习节点x的嵌入。期望生成的嵌入捕获节点之间的关系,即基于嵌入相似度准确预测两个节点xq和xk是否连接
GraphFormers的编码过程如下。

  1. 输入节点(中心节点及其邻近节点)被标记化为标记序列,在前面填充特殊的标记[CLS],其状态用于节点表示。
  2. 根据单词嵌入和位置嵌入的总和,将输入序列映射到初始嵌入序列{H0g}G中。嵌入序列由多层GNN嵌套的Transformer进行编码,其中图的聚合和文本编码是迭代执行的。
    结构2
    其中,最左边的矩阵是GNN
    GNN处理过的节点级嵌入z被分配到它们的原始节点,从而形成了图增强的标记级嵌入。图增强的标记级嵌入进一步由transformer进行编码。

3.1 图聚合

每个节点基于分层图聚合,通过其邻域信息进行增强。
对于第1层中的每个节点,将第一个标记级嵌入(对应于[CLS])作为节点级嵌入: zlg←H1g[0]。节点级嵌入z从所有节点中收集,并传递给分层GNN进行图聚合。
利用多头注意力(MHA)对节点级嵌入Z进行编码,类似于GAT。对于每个注意力头,缩放的点积注意力被执行为
公式1
在上述方程中,WjQ、WjK和WjV是MHA的投影矩阵,对应于第j个注意头。
在点积结果中加入一个可学习的位置偏差B;
位置区分节点之间的关系,即“中心到中心”(x到x)、“中心到邻”(x到Nx)和“邻到邻”(Nx到Nx)。
每个被GNN处理过的嵌入节点标记z^ 被分派到其原始节点,并与标记级嵌入H连接(⊕),这就产生了图增强的标记级嵌入H^:
公式2
GNN处理的节点级嵌入ˆZ可以解释为“消息器”,它可以将邻域信息引入到每个节点。

3.2 文本编码

图增强的标记级嵌入H^由transformer组件处理:
公式
在上述方程中,MLP为多层投影单元,LN为层范数单位。使用非对称多头注意力MHA,其中Q、K、V计算为:
公式
因此,输出序列Hl+1g将与输入序列Hlg的长度相同。编码结果将被用作下一层的输入标记级嵌入。在最后一层zLx(即HLg[0])的节点级嵌入将作为最终的节点表示。
输入节点被标记化为标记级嵌入H,每一层的第一个标记级嵌入H1作为节点级嵌入Z,利用多头注意力机制对Z进行编码得到Z^ ,结合Z^ 和H得到图增强的标记级嵌入H^ 。再根据第l层的H和H^可以得到第I+1层的H。

3.3 工作流

GraphFormers的编码工作流程总结为算法1。
算法1
初始标记级嵌入H0g由第一个transformer层TRM0独立编码。
对于后续的L-1步骤(从1到L−1),迭代地执行L层图形聚合和文本编码。
在每一步中,节点级嵌入Z都由分层GNN组件收集和处理。
输出的节点级嵌入Z^ 被分配到它们的原始节点,从而生成图增强的标记级嵌入H^。图增强的标记级的嵌入由transformer组件进一步处理。最后,以最后一层z中的节点级嵌入(对于中心节点x)作为我们的表示结果。

3.4 模型简化:单向图形聚合

存在的问题:为了生成一个节点嵌入,其附近的所有相关节点都需要从头开始进行编码,而不管它们之前是否已经被处理过。这种特性在实践中是不利的,因为可能会产生大量不必要的计算成本(即,一个节点每次作为邻居节点时都会被重复编码)。
所以利用一个简单但有效的简化:单向图聚合来解决这个问题。特别是,只需要中心节点x来参考邻域;而其余的节点Nx仍然由它们自己的文本特性独立编码:
公式
因为相邻节点的编码独立于中心节点,中间编码结果可以缓存在存储中,并在后续计算中重用。因此,可以防止节点被重复编码,从而节省了大量不必要的计算成本。

3.5 模型训练:两阶段训练

训练目标是给定一对节点q和k,学习模型根据它们的嵌入来预测它们是否连接。
损失函数为:
公式
在上式中,hq和hk为节点嵌入;<>表示内积;R代表负样本。
在模型中,来自中心节点和相邻节点的信息没有得到平等的对待,这可能会破坏模型的训练效果。特别是中心节点的信息可以直接利用,而邻域信息需要通过三个步骤引入: 1)编码为节点级嵌入,2)与中心节点进行图聚合,3)引入中心节点的图增强标记级嵌入。
当中心节点“信息足够丰富”时,消息传递路径可以缩短路径,即两个节点在各自的文本特征上足够相似,从而可以在不考虑邻居的情况下预测它们的连接。
分为两个阶段的渐进式学习过程:
在第一阶段,模型基于污染节点训练为最小化L‘,直到收敛,增强了模型在图上整合信息的能力。
在第二阶段,模型基于原始数据不断训练,使L最小化,直到收敛,使模型符合目标分布
第一阶段不在我的实验考虑范围内。
其中L’如图
公式
对于每个输入节点g,其标记gm的一个子集将被随机屏蔽。其中q~ 和k~是处理之后的节点嵌入。

四、实验结果

训练目标跟我的研究内容关系不大
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值