Graph-Bert: Only Attention is Needed for Learning Graph Representations

最新推荐文章于 2021-07-19 19:19:32 发布

文件夹66

最新推荐文章于 2021-07-19 19:19:32 发布

阅读量308

点赞数 1

分类专栏：图神经网络文章标签：算法神经网络深度学习

本文链接：https://blog.csdn.net/qq_42275073/article/details/115902606

版权

图神经网络专栏收录该内容

10 篇文章 12 订阅

订阅专栏

Motivation

主流的GNNs过度依赖图上的连接，导致了几个严重的性能问题：

suspended animation problem：当模型深度到达一定上限时，网络将不会对训练数据相应；
over-smoothing problem：模型深度到达一定上限时，学习到的节点嵌入将没有差异。
在图内无法实现并行计算。

Contributions

提出了新的图神经网络；
用无监督的任务对模型进行预训练，同时学习图的局部属性和图的总体属性；
预训练的模型可以微调并迁移到其他的学习任务上。

Model

Subgraph Batching

这一步的终极目的其实是对于每个节点采样得到局部子图。Subgraph Batching使得Graph-Bert能够在大尺寸图上并行计算。

矩阵 $S$ ：文中称该 $S$ 为图亲密度矩阵（graph intimacy matrix）。 $S$ 的计算基于Pagerank算法：
$S=\alpha(I-(1-\alpha)·\bar A)^{-1}$
不懂pagerank算法的可以参考知乎这篇文章。 $\bar A=AD^{-1}$ ， $D$ 是度矩阵。 $\bar A$ 可以看成是状态转移矩阵，前面一项 $I$ 表示每个节点都可以以相等的概率转移到所有其他节点，后面的 $(1-\alpha)·\bar A$ 表示节点以状态转移矩阵中相应的概率转移到相应节点。（其实可以理解成前面一项是随机转移，后面一项是按照图的连接来转移）。
Node Context：基于 $S$ 矩阵，作者又提出了一个新概念，对于节点 $v_i$ ，定义其局部的node context为： $\ { v i } ∧ S ( v i , v j ) > θ i } \Gamma\left(v_{i}\right)=\left\{v_{j} \mid v_{j} \in V\backslash\left\{v_{i}\right\} \wedge S(v_i,v_j)>\theta_i\right.\}$ 。
看起来有点乱……其实意思就是如果节点 $v_j$ 与 $v_i$ 之间的亲密度值超过某个阈值 $\theta_i$ ，那么该 $v_j$ 就可以参与构成目标节点 $v_i$ 的node context，且节点 $v_j$ 不可以取 $v_i$ 。 $\theta_i$ 的取值在文中选择为排序 $S (i, :)$ 后的第 $k$ 个值，这样 $\Gamma(v_i)$ 就可以包含top-k的亲密的节点。
subgraph：得到 $\Gamma (v_i)$ 后，可以继续得到节点 $v_i$ 的局部图，该局部图的节点集为 $V_i=\Gamma(v_i)\mathop{\cup}\{v_i\}$ ，该局部图为 $g_i=(V_i,\varnothing)$ ，所有节点的局部图为 $G=(g_1,g_2,\ldots,g_{|V|})$ 表示所有节点的局部图集合。该局部图内是没有连接的。

编码

熟悉Transformer的同学知道，其为了捕捉位置属性，定义了位置编码组件来用一个向量表示单词的位置，融合位置向量和单词原始属性作为输入。Graph-Bert同样也提出了编码。其实图本来应该是无序的，但由于作者做了采样，在一个子图内部，可以根据亲密度的大小做一个排序，或者根据其他算法给节点以label，使得子图内部的节点是有序的。编码工作不仅包含拓扑位置的编码，还包含节点自身的特征等等。

Raw Feature Vector Embedding：
$e^{(x)}_j=Embed(x_j)\in R^{d_h\times 1}$
$E m b e d$ 可以是CNN，可以是LSTM、BERT或者简单线性变化。
Weisfeiler-Lehman Absolute Role Embedding：
WL算法可以标记节点在图中的角色，在图中担任相同角色的不同节点将会有相同的WL编码。定义该编码为 $WL(v_i)\in R$ ，借鉴Transformer的位置编码，得到：
Intimacy based Relative Positional Embedding：对于 $v_j\in V_i$ ，基于亲密度矩阵，用 $P(v_j)$ 表示节点 $v_j$ 相对于 $v_i$ 的亲密度位置。
$e^{(p)}_j=\text{Position-Embed}(P(v_j))\in R^{d_n\times 1}$
Hop based Relative Distance Embedding：对于 $v_j\in V_i$ ，用 $H(v_j,v_i)$ 表示在原始图中， $v_j$ 到达 $v_i$ 需要的hops数。
$e^{(d)}_j=\text{Position-Embed}(H(v_j;v_i)\in R^{d_h\times 1}$

最后节点的编码可以表示成这四个编码的和，作为 $v_j$ 在子图 $g_i$ 的中输入（是的没错，讲到现在也只是输入而已……）
$h_j^{(0)}=\text{Aggregate}(e^{(x)}_j,e^{(r)}_j,e^{(p)}_j,e^{(d)}_j)$
用 $H^{(0)}$ 表示 $g_i$ 中所有节点的输入编码，也就是 $H^{(0)}=[h_i^{(0)},h_{i,j}^{(0)},\ldots,h_{i,k}^{(0)}]^T\in R^{(k+1)\times d_h}$
第 $l$ 层的输出可以计算为：

$H^{(l)}=\text{G-Transformer}(H^{(l-1)})\\ =softmax(\frac{QK^T}{\sqrt{d_h}})V+G-Res(H^{(l-1)},X_i)$
这里用到了自注意力机制，即 $Q=H^{(l-1)}W^l_Q$ ， $K=H^{(l-1)}W^l_K$ ， $V=H^{(l-1)}W^l_V$ 。
假设一共有 $D$ 层， $g_i$ 的最后一层的输出为 $H^{(D)}$ ，最终节点 $v_i$ 的节点嵌入表示为 $z_i=\text{Fusion}(H^{(D)})$ 。

总体看来，模型框架图如下：
在这里插入图片描述
后面作者介绍了两个预训练任务，分别是节点原始属性重建和图的结构重建：

节点原始属性重建：节点原始属性为 $x_i$ ， $\hat x_i=FC(z_i)$ 。
$\mathcal{l}_1=\frac{1}{|V|}\sum_{v_i\in V}||x_i-\hat x_i||_2$
图的结构重建：原始图的亲密度矩阵为 $S$ ， $\hat s_{i,j}=\frac{z_i^Tz_j}{||z_i||||z_j||}$ 。
$\mathcal{l}_2=\frac{1}{|V|^2}||S-\hat S||_F$

文件夹66

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Graph-Bert: Only Attention is Needed for Learning Graph Representations

相关资源论文：http://www.ifmlab.org/files/paper/graph_bert.pdf代码：https://github.com/jwzhanggy/Graph-Bert这篇文章2020年发表于arXiv，借鉴了Transformer，提出一种仅使用注意力机制的图神经网络。Motivation主流的GNNs过度依赖图上的连接，导致了几个严重的性能问题：suspended animation problem：当模型深度到达一定上限时，网络将不会对训练数据相应；over-
复制链接

扫一扫