A Generalization of Transformer Networks to Graphs

1. 论文地址

论文:https://arxiv.org/pdf/2012.09699.pdf
代码:https://github.com/graphdeeplearning/graphtransformer

2. Abstract

作者提出了一种适用于任意图的transformer神经网络结构的推广方法。原始的transformer是建立在全连接的图上,这种结构不能很好地利用图的连通归纳偏置——arbitrary and sparsity,即把transformer推广到任意图结构,且表现较弱,因为图的拓扑结构也很重要,但是没有融合到节点特征中。
作者提出新的graph transformer,带有以下四个新特征:

  1. 在每个node的可连通临域做attention.
  2. positional encoding用拉普拉斯特征向量表示.
  3. 用BN(batch normalization)代替LN(layer normalization),优点:训练更快,泛化性能更好.
  4. 将结构扩展到边特征表示.
    此架构简单而通用,作者相信它可以作为黑盒,应用在transformer和graph的application中。

3. Introduction

  1. 在NLP中,transformer利用注意力机制处理长距离的序列信息,即句子中的一个单词与其它单词关联,然后结合获得的权重信息得到抽象的特征表示。
  2. 基于图结构数据的GNNs挖掘给定任意图的结构信息,并学习nodes和edges的特征表示。

3.1 Related Work

  1. 在Graph Transformer中,attention用在了某个node对所有nodes,而不是此node的邻域。这限制了稀疏性的有效利用,稀疏性是图数据集学习的一个很好的归纳偏差。对于全局信息,作者提出其它方法(graph-specific positional features,node Laplacian position eigenvectors,relative learnable positional information,virtual nodes)去获取而不是放弃稀疏性和局部的信息。
  2. Graph-BERT采用多个位置编码方案的组合来捕获绝对节点结构和相对节点位置信息。由于原始图不直接用于graph-BERT和子图之间没有edge(即无链接),提出的positional encodings的组合试图在node中保留原始图结构信息。
  3. Graph Transformer Networks (GTN)学习异构图,目标是将给定的异构图转换为基于元路径的图,然后执行卷积。
  4. Heterogeneous Graph Transformer (HGT),它可以处理任意数量的nodes和edges类型,HGT还基于中心node和消息传递node的时间戳差异,以相对时间的positional encoding的形式捕捉异构图中的动态信息。
  5. Zhou et al.(2020)提出了一种基于transformer的生成模型,通过直接学习网络中的动态信息来生成时间图。
  6. 作者目的:开发基于坐标嵌入的positional encoding方案的任意同构图的graph transformer。

3.2 Contributions

  1. 把transformer网络推广到任意结构的同构图,即Graph Transformer,它的带有edge特征的扩展版本允许使用显示域信息作为edge特征。
  2. method包括用拉普拉斯特征向量融合node的positional features。
  3. 实验证明,作者提出的model优于baseline的各向同性和异性的GNNs。

4. Proposed Architecture

作者开发Graph Transformers考虑到2个关键因素—— sparsity and positional encodings。

4.1 On Graph Sparsity

为什么在NLP的transformer中,用全连接图去处理一个句?

  1. 很难去找到单词与单词之间的稀疏联系,因为单词的含义是依据上下文和不同角度。
  2. 在NLP的transformer的nodes数量是比较少(几十个,几百个),便于计算。

在实际的图结构数据集中,图有任意的连通结构,nodes的数量达到百万,数亿级别,使得不可能获取一个完整的连接的图,所有实际的做法是用Graph Transformer来使node处理邻接nodes。

4.2 On Positional Encodings

  1. 在NLP里,为每个单词提供一个positional encoding,保证了每个单词的唯一性和保存位置信息。
  2. 大多数在图数据集上训练的GNNs学习的是不随node位置变化的结构化的node信息,这就是为什么GAT是局部attention,而不是全局。我们要学习结构和位置的特征,Dwivedi et al. (2020)利用图结构信息去预先计算拉普拉斯特征向量并作为node的位置信息,并把它作为PE用在Graph Transformer中,图的拉普拉斯矩阵:
    在这里插入图片描述
    用node的最小的k个非平凡特征向量作为PE。

4.3 Graph Transformer Architecture

在这里插入图片描述1. 第一个模型是为没有明显edge属性的图而设计的,第二个模型保留一个指定的edge特征的pipeline,以整合可用的edge信息,并在每一层保留它们的抽象表示。输入是node和edge的embeddings,有node和edge的特征信息,然后线性映射嵌入:
在这里插入图片描述
在这里插入图片描述
接下来是Graph Transformer Layer,先是一个self-attention,再进行多头拼接:
在这里插入图片描述
此层输出的结果传到FFN,再进行残差连接和LN:
在这里插入图片描述
2.第二个模型是把edge特征加入进来,如上的右图。它把两个node的之间的edge信息也加入到attention的计算中,当然是node的可连通的邻域node,edge的分数也高说明关联程度就越高:
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

5. Numerical Experiments

为了评估提出的模型的性能,在ZINC,PATTERN,CLUSTER这三个数据集实验。

ZINC, Graph Regression:分子数据集,node代表分子,edge代表分子之间的键。键之间有丰富的特征信息,所以用第二个模型。
PATTERN, Node Classification:任务是把nodes分成两个communities,没有明确的edge信息,所以用第一个模型。
CLUSTER, Node Classification:任务是为每个node分配cluster,一共有6个cluster,用第一个模型。
Model Configurations:PyTorch,DGL,一共有10层Graph Transformer layers,每层有8个attention head和随机的隐藏单元,学习率递减策略,当达到10-6就停止训练。
在这里插入图片描述

6. Analysis and Discussion

实验结论如下:

  1. 由Table1可知,带有LapPE和BN的模型实验数据更好。
  2. 由Table2可知,提出的模型明显比GCN和GTN要好,但没有GatedGCN好。
  3. 稀疏图连通性对于具有任意图结构的数据集来说是一个关键的归纳偏差,通过比较稀疏图与全图实验可以证明这一点。
  4. 提出的第二个模型的性能在ZINC上近似于GatedGCN。

6.1 Comparison to PEs used in Graph-BERT

作者说明为什么用拉普拉斯特征向量作为PE在本模型中,它与Graph-BERT做对比。Graph-BERT是在固定大小的抽样子图上进行的操作,它把原始图以node的数量分成v个子图,每个子图有k+1个nodes,其中是中心node与k个最相似的node的组合,这种相似性是根据node之间的edge计算得来的。虽然这种sampling对于并行计算和提高计算效率很好,但是原始图没有直接用在这个层中。Graph-BERT用一种node的PE组合的方式去融合node的结构,位置,和距离信息:

  1. 基于亲密度的相对PE。
  2. 基于Hop的相对距离编码。
  3. 基于Weisfeiler Lehman的绝对PE (WL-PE)。

前两个PE依赖于node的sampling策略不具有一般性,所以用第三种PE与拉普拉斯的PE做比较,实验结果如Table3所示,用拉普拉斯的PE要比WL-PE效果好。

7. Conclusion

本文主要展示了一种把transformer推广到任意的图的简单且有效的方法,并展示了两种模型的结构。用拉普拉斯特征向量作为PE和把LN用BN代替,使模型学习能力得到增强。考虑到这种结构的简单和通用的性质和有竞争力的性能表现,作者相信提出的模型会在以后得到更好的提升。未来方向:有效地在大型单一的图上进行训练,对异构图上的适用性研究等。

  • 7
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
针对过分分布的普遍化:一项调查 "towards out of distribution generalization: a survey"是一项对过分分布普遍化现象的研究。该研究关注如何处理机器学习中的模型在训练过程中未曾遇到的情况下的泛化能力。 当前,机器学习中的模型往往在面对与训练数据不同的情况时出现问题。这些情况被称为"分布外"或"过分分布"。过分分布问题在现实世界的应用中非常普遍,例如在医学影像诊断中,模型在对未见过的病例进行预测时可能出现错误。 为了改善过分分布问题,该调查着重研究了几种处理方法。首先,一种方法是使用生成对抗网络(GAN)。GAN可以通过学习未见过的数据分布来生成合成样本,从而提高模型的泛化性能。其次,该调查还介绍了自监督学习和深度对比学习等技术。这些方法通过引入自动生成标签或学习新的特征表示来增强模型的泛化能力。 此外,该调查提到了一些用于评估模型在过分分布上泛化能力的评估指标。例如,置信度和不确定性度量可以帮助评估模型对于不同类别或未知样本的预测是否可信。同时,模型的置换不变性和鲁棒性也是评估模型泛化能力的重要因素。 总结来说,这项调查对于解决过分分布普遍化问题提供了一些有益的方法和指导。通过使用生成对抗网络、自监督学习和深度对比学习技术,以及评估模型的不确定性和鲁棒性,我们可以提高模型在未曾遇到的情况下的泛化能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值