【读文献】Graphormer - Transformer在图表示是否很差

最新推荐文章于 2025-05-05 09:34:57 发布

无名草鸟

最新推荐文章于 2025-05-05 09:34:57 发布

阅读量688

点赞数

分类专栏： #文献 ai 文章标签： transformer 机器学习人工智能

本文链接：https://blog.csdn.net/qq_41020633/article/details/127380839

版权

ai 同时被 2 个专栏收录

20 篇文章

订阅专栏

#文献

6 篇文章

订阅专栏

Do Transformers Really Perform Bad for Graph Representation?

模型简称：Graphormer
发表日期：[v5] Wed, 24 Nov 2021
作者：Chengxuan Ying等
机构：Microsoft Research Asia等
Code: https://github.com/Microsoft/Graphormer

摘要

动机：Transformer在很多领域(如CV,NLP)中成为了主流的选择，但在流行的图水平预测排行榜中，与主流的GNN变体相比，Transformer没有表现出具有竞争力的表现。为了探究Transformer在图表示学习中的潜力，作者提出了Graphormer这一方法，证明了Transformer可以在大范围的图表示学习任务中得到很好的效果。
方法：Graphormer。在图中使用Transformer的关键点是将图的结构信息编码到模型中。

方法

输入和预测任务

输入：为一个2D Graph，包含node，edge以及graph的一些特征和属性，可由OGB数据集获取
预测任务：二分类任务，每个小分子（一个小分子就是一张图）对应一个binary label（0或1），label可由OGB数据集提供

模型

在Graphormer中，作者合并了很多的有效的structural encoding methods去充分利用这些信息。
- Centrality Encoding：获取图结点的重要性，编码结点中心性(node centrality)。centrality使用了degree centrality作为神经网络的额外信号。centrality encoding使用了入度和出度为图的每个结点分配了两个embedding vector作为结点的额外特征，所以模型输入为：
  $x_i$ 为图结点原本的特征， $z^-$ 和 $z^+$ 为入度和出度的learnable embedding vectors.
- Spatial Encoding：获取图节点之间的结构关系。对于sequential data，Transformer可以在每个位置上做embedding或者对任意的两个位置的相对距离做embedding，这样就得到了全局感受野(global receptive field)。而对于图来说，结点不可以视作一个sequence。他们可以位于多维的空间中并通过边连接。Spatial Encoding将图中任意两个相连接的结点的最短路径的距离(the distance of the shortest path, SPD)作为一个learnable的标量作为self-attention模块中的bias项。对于结点 $v_i$ 和 $v_j$ ， $A_{ij}$ 是self-attention中的Query-key点积矩阵，
  
  相比于原始的Transformer，增加了一个可学习的b，这个b有两个作用：(1) 对于原始的GNN，感受野受到结点邻居的限制，丢失了非邻居的结点的信息。b提供了每个结点可以关注到图中的所有其他结点的全局信息。(2) 每个结点可以通过图的结构信息自适应的关注其他结点。比如如果学习的是SPD的递减函数，则对于每一个结点，它可能更加关注离它近的结点而忽略离它远的结点。
- Edge Encoding：以往的Edge Encoding只将边的信息传播到与其直接相关的结点上，丢失了那些间接相连的结点的信息。作者提出新的Edge Encoding的方法，找到任意两个结点的最短距离，沿着这条路径做一个learnable embedding，然后将这个embedding与边的特征做点积，最后将这个量作为第二个bias项加入到self-attention模块的 $A_{ij}$ 中，见下图中的 $c_{ij}$ 。
  
  这样，注意力中就包含了全局的边信息。
- Virtual Node(VNode)。与普通的图结点不同，这个虚拟节点可以与图中的所有结点相连。在普通结点的基础上，加上VNode以后可以增强图神经网络的表现。
下图是对上述三种encoding如何加入Transformer的图解释。

实验

数据来源：
- OGB Large-Scale Challenge： Open Graph Benchmark Large-Scale Challenge(OGB-LSC)
- OGB: Open Graph Benchmark
- benchmarking-GNN
任务：Graph Property Prediction，输入为graph，输出为property的预测值
- OGB-LSC quantum chemistry regression challenge(量子化学回归)：数据来自于OGB-LSC。具体任务为PCQM4M-LSC，数据量为3.8M graphs。
MolHIV(small) 和 MolPCBA(medium): 数据来自于OGB。任务为分子图属性预测，图分为小分子图和中分子图，MolHIV为小分子图预测，数据量为41127个图；MolPCBA为中分子图预测，数据量为437929个图。图的node代表原子，egde代表化学键。

"FLAG"是图数据增强的一种方法(Kezhi Kong, et al.)。

ZINC：数据来自于Benchmarking-GNN。数据量12000个图。

总结

这篇论文主要介绍的是模型的结构以及graph到embedding的转换，没有涉及如何将序列编码为graph的操作。不能直接用于蛋白质预测。
这篇文章提出了Graphormer，用Transformer配合图的信息。该模型提出了三个新的图编码方式，可以将图的结构信息编码到Transformer模型中。Graphormer的亮点是将图的全局信息编码到模型中去，获得了global receptive field。实验证明该模型在图属性预测任务中表现好于其他GNN的variant。
图预测任务的公开数据集：
(1)OGB-LSC: Open Graph Benchmark Large-Scale Challenge, arXiv:2103.09430
(2)OGB：Open Graph Benchmark，arXiv:2005.00687
(3)Benchmarking-GNN:t arXiv:2003.00982