NeurIPS 2023 | SGFormer: 仅使用一层全局注意力的简化图Transformer

最新推荐文章于 2025-04-20 08:00:00 发布

PaperWeekly

最新推荐文章于 2025-04-20 08:00:00 发布

阅读量1.4k

点赞数 9

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/135234272

版权

本文介绍了SGFormer，一种简化版的图Transformer模型，仅使用一层全局注意力机制，实现了对大规模图数据的高效建模。研究发现，这种方法在保持高精度的同时，显著提高了计算效率，适用于处理节点数量达到上亿的超大图。SGFormer避免了多层注意力和复杂结构，通过线性复杂度的注意力计算，解决了现有模型在扩展性和泛化性能上的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

设计针对图结构数据的 Transformer 模型（通常简称 graph Transformer）目前已成为了一个备受关注的研究方向。有别于传统图神经网络（简称 GNN）每层更新只能聚合邻居节点的信息，Transformer 通过全局注意力机制在每层更新中可以聚合图中所有其他节点的信息。这种设计可以有效避免 GNN 的过度挤压问题、改善对异质图的建模、缓解噪声/残缺/冗余连边对性能的影响 [1]。

然而，目前大部分 graph Transformer 只能处理小规模图（如分子图）[2,3,4]。对于普通规模的图数据，例如节点数目达到上千的量级，全局注意力的平方级复杂度会使得传统的模型难以扩展。

另一方面，目前的 Transformer 模型通常采用比较复杂的模型结构，例如堆叠多层的多头注意力机制。对于大规模图数据，一个常见的现象是图中带标签的节点比例较低，这种情况下复杂的模型结构会影响到模型的泛化性能。

为此，在这项研究工作中，我们试图探索一条有别于大众方法的技术路径，即对 Transformer 进行简化，以实现对大规模图的高效建模。

具体的，我们提出了 Simplified Graph Transformer（简称 SGFormer），在只使用一层线性复杂度的全局注意力网络的情况下，我们的方法在 12 个不同性质和规模的节点性质预测 benchmark 上都表现出极具竞争力的精度，首次实现了将 Transformer 方法扩展到上亿节点规模的超大图上，并在中等规模图上相比同类 graph Transformer 方法实现了大幅度的计算效率提升。