Graph-Bert：无所不能的Bert在图上也能发光发热？

本文链接：https://blog.csdn.net/beilizhang/article/details/111027283

主要参考论文：《GRAPH-BERT: Only Attention is Needed for Learning Graph Representations》

概述

传统的GCN模型往往存在假死问题（suspended animation problem）和过平滑问题（over-smoothing problem）而且过于依赖结点间的连边，不利于并行计算。针对以上问题，Graph-Bert摒弃了图卷积和邻居消息聚合操作，就像题目一样，完全只使用attention机制。

跟Bert一样，Graph-Bert也是先预训练，再根据具体任务做微调。预训练任务包括结点属性重构和结构重构；下游任务有结点分类和图聚类。
在这里插入图片描述

结构

在这里插入图片描述
Graph-Bert分为5个部分：1）linkless subgraph batching；2）node input embedding；3）graph-transformer based encoder；4）representation fusion；5）the functional component。

linkless subgraph batching

首先通过PageRank在完整图中计算出结点间的亲密矩阵 $S$ （intimacy matrix）。

$S=\alpha \cdot \left ( I-\left ( 1-\alpha \right )\cdot AD^{-1}\right )^{-1}$

对于每个结点 $v_i$ ，我们根据 $S$ 找到与其最近的k个邻居（称为结点 $v_i$ 的上下文）。 $v_i$ 和它的上下文构成一个无连边的子图 $g_i$ 。如此，每个结点都对应一个子图，完整图就可以表示为 $G=\left \{g_{1}，g_{2},\cdot \cdot \cdot ,g_{\left | V\right |}\right \}$ 。这样就可以用一定数量的子图作为一个batch了。
注：结点的上下文既包含局部邻居，也包含距离较远的邻居。

node input embedding

结点embedding有4种：i) Raw Feature Vector Embedding；ii) Weisfeiler-Lehman Absolute Role Embedding；iii) Intimacy based Relative Positional Embedding；iv) Hop based Relative Distance Embedding。

Raw Feature Vector Embedding

即结点的原始特征经过嵌入层得到的embedding。

$e_{j}^{\left ( x\right )}=Embed\left ( x_{j}\right )\in R^{d_{h}\times 1}$

其中， $x_{j}$ 为结点 $v_j$ 的原始特征，可以是one-hot、n-hot等。

Weisfeiler-Lehman Absolute Role Embedding

Weisfeiler-Lehman (WL)测试常用于图同构问题。例如判断下面两个图是否同构，先为每个结点标记同一种颜色，然后对结点及其邻居的颜色序列进行hash得到新的颜色，不断迭代直至收敛，最终每个结点会根据其在图中的结构角色被标记一种颜色，根据不同颜色结点的比例可以判断两个图是否可能同构（必要不充分）。
在这里插入图片描述
利用WL测试可以捕获结点角色信息的特点，在完整图上执行WL测试，然后将结点颜色（实际上是int型）进行embedding。

$e_{j}^{\left ( r\right )}=Position-Embed\left ( WL\left ( v_{j}\right )\right ) \\ =\left [ sin\left ( \frac{WL\left ( v_{j}\right )}{10000^{\frac{2l}{d_{h}}}}\right ),cos\left ( \frac{WL\left ( v_{j}\right )}{10000^{\frac{2l+1}{d_{h}}}}\right )\right ]_{l=0}^{\left \lfloor \frac{d_{h}}{2}\right \rfloor}$

注：结点WL值（即颜色）是用完整图计算的，在不同子图上不变。

Intimacy based Relative Positional Embedding

相当于NLP中Transformer的Positional Embedding，即对无连边中子图结点的相对顺序进行了编码。该顺序就是按邻居结点与目标结点的亲密度来排序的，依次是[目标结点，与其最亲密的邻居1，与其次亲密的邻居，…]。

$e_{j}^{\left ( p\right )}=Position-Embed\left ( P\left ( v_{j}\right )\right )\in R^{d_{h}\times 1}$

其中， $P\left ( v_{j}\right )$ 为结点 $v_{j}$ 在无连边子图中的相对位置。

Hop based Relative Distance Embedding

计算无连边子图中，结点与目标结点的相对距离，具体地，计算两个结点在完整图上的最短距离。

$e_{j}^{\left ( d\right )}=Position-Embed\left ( H\left ( v_{j};v_{i}\right )\right )\in R^{d_{h}\times 1}$

其中， $H\left ( v_{j};v_{i}\right )$ 为结点 $v_{j}$ 与结点 $v_{i}$ 的相对距离。

graph-transformer based encoder

即编码器部分，我们需要先对结点的embedding进行聚合，只是将每个结点在第二部分得到的四种embedding求和得到其最终的embedding，然后将子图中每个结点的最终embedding拼接起来即可。

$h_{j}^{\left ( 0\right )}=Aggregate\left ( e_{j}^{\left ( x\right )},e_{j}^{\left ( r\right )},e_{j}^{\left ( p\right )},e_{j}^{\left ( d\right )}\right )$

$H^{\left ( 0\right )}=\left [ h_{i}^{\left ( 0\right )},h_{i,1}^{\left ( 0\right )},\cdot \cdot \cdot ,h_{i,k}^{\left ( 0\right )}\right ]^{T}\in R^{\left ( k+1\right )\times d_{h}}$