一、论文基础信息
论文题目:Representing Long-Range Context for Graph
Neural Networks with Global Attention
论文来源:NIPS2021
论文作者:Zhanghao Wu, Paras Jain, Matthew A. Wright, Azalia Mirhoseini, Joseph E. Gonzalez, Ion Stoica
论文链接:点击跳转
作者团队:Joseph E. Gonzalez, Ion Stoica from UC Berkeley
论文源代码:点击跳转
二、论文内容总结
Motivation
基于GNNs的模型难以解决长期依赖问题,GNNs过深或过宽会导致梯度消失和过度平滑问题,而在CV中广泛使用的池化方法还未在GNNs中使用
论文贡献
- 通过Transformer进行long-rang reasoning可以提高GNNs的准确性,且实验结果证明,对图中所有的pairs node-node interaction进行建模对于大型图分类任务尤为重要;
- 设计了一种新颖的GNNs readout模块,使用一个特殊的"" token来将所有的pairs interaction聚合为一个分类向量。
- GraphTrans在OGB和NCI生物分子数据集上取得了sota的表现
算法设计
模型结构
公式推导
1、通用的GNN layer表示为:
h v l = f l ( h v l − 1 , h u l − 1 ∣ u ∈ N ( v ) ) l = 1 , . . . , L G N N h_v^l=f_l(h_v^{ \mathcal{l} -1}, {h_u^{l-1}|u \in \mathcal{N}(v)})\quad l=1,...,L_{GNN} hvl=fl(hvl−1,hul−1∣u∈N(v))l=1,...,LGNN
其中, L G N N L_{GNN} LGNN为GNN的总层数, N ( v ) ∈ V \mathcal{N}(v)\in\mathcal{V} N(v)∈V为节点 v v v的邻居节点。
2、将GNN最后一层的输出 h v L G N N h_v^{L_{GNN}} hvLGNN通过Linear和LayerNorm后,作为Transformer的输入:
h ˉ v 0 = L a y e r N o r m ( W P r o j