设计针对图结构数据的 Transformer 模型(通常简称 graph Transformer)目前已成为了一个备受关注的研究方向。有别于传统图神经网络(简称 GNN)每层更新只能聚合邻居节点的信息,Transformer 通过全局注意力机制在每层更新中可以聚合图中所有其他节点的信息。这种设计可以有效避免 GNN 的过度挤压问题、改善对异质图的建模、缓解噪声/残缺/冗余连边对性能的影响 [1]。
然而,目前大部分 graph Transformer 只能处理小规模图(如分子图)[2,3,4]。对于普通规模的图数据,例如节点数目达到上千的量级,全局注意力的平方级复杂度会使得传统的模型难以扩展。
另一方面,目前的 Transformer 模型通常采用比较复杂的模型结构,例如堆叠多层的多头注意力机制。对于大规模图数据,一个常见的现象是图中带标签的节点比例较低,这种情况下复杂的模型结构会影响到模型的泛化性能。
为此,在这项研究工作中,我们试图探索一条有别于大众方法的技术路径,即对 Transformer 进行简化,以实现对大规模图的高效建模。
具体的,我们提出了 Simplified Graph Transformer(简称 SGFormer),在只使用一层线性复杂度的全局注意力网络的情况下,我们的方法在 12 个不同性质和规模的节点性质预测 benchmark 上都表现出极具竞争力的精度,首次实现了将 Transformer 方法扩展到上亿节点规模的超大图上,并在中等规模图上相比同类 graph Transformer 方法实现了大幅度的计算效率提升。
论文题目:
Simplifying and Empowering Transformers for Large-Graph Representations
论文链接:
https://arxiv.org/pdf/2306.10759.pdf
代码链接:
https://github.com/qitianwu/SGFormer
三分钟读论文
Powered by AI © PaperWeekly
模型介绍
本文提出的方法主要基于一个观察:由于全局注意力机制已经能够实现任意两两节点间的信息传递,因此原则上只需要一层注意力网络模型就能具备建模任意两两间的影响交互的表达能力。基于此,我们试图将全局注意力网络从“堆叠多层”简化到“一层”。
模型结构:SGFormer 的模型结构非常简单,主体部分采用一层全局注意力网络和普通 GNN 的结合。假设图中