GRAPH-BERT: Only Attention is Needed for Learning Graph Representations论文笔记

GRAPH-BERT: Only Attention is Needed for Learning Graph Representations论文笔记

Motivation

当前图神经网络(GNN)的主要方法过度依赖图中的连接关系,这样造成了三大问题:(1)模型假死;(2)过度平滑;(3)难以并行计算

  • 模型假死:随着神经网络层数的不断加深,模型对于输入的数据开始不进行相应。这个问题的具体原因没在论文里看到,个人理解是由于层之间的非线性变换使得数据分布变换置导数较小的区域,从而使得梯度消失。
  • 过度平滑:由于图神经网络大多依靠聚合操作(mean,max,sum)的信息更新方式,这样随着层的不断堆叠,每个节点都会大量受到其他节点信息的影响,从而使得每个节点的embedding愈发趋同。这也是GNN一般不超过2层的原因。
  • 难以并行计算:由于内存的限制,尤其是在大型图里面,图中的关联关系难以并行计算。

Contribution

提出了一种新的图神经网络模型Graph-Bert,只依赖注意力机制,不涉及任何图卷积和聚合操作。Graph-Bert 将原始图采样为多个子图,并且只利用attention机制在子图上进行表征学习,而不考虑子图中的边信息。因此Graph-Bert可以解决上面提到的传统GNN具有的性能问题和效率问题。

Method

在这里插入图片描述

Graph-Bert 主要由四部分组成:

  1. 将原始图分解为无边子图集合,这一步属于预处理部分。具体来说,对于每个目标节点,根据节点之间的相似度分数选取前K个节点作为目标节点的上下文节点。
  2. 节点输入特征的嵌入表示。本文考虑四种节点的特征:(1) raw feature vector embedding, (2) Weisfeiler-Lehman absolute role embedding, (3) intimacy based relative positional embedding, and (4) hop based relative distance embedding。这一步也是预处理。
  3. 基于图transformer的节点表征学习编码器,编码器的输出作为学习到的节点特征表示。
  4. 基于图transformer的解码器。主要考虑节点属性重建以及图结构恢复任务。
无边子图采样

基于图亲密度矩阵 S ∈ R ∣ v ∣ ∗ ∣ v ∣ S\in R^{|v|*|v|} SRvv,对于节点 v i v_i vi,选取最大的top-k个亲密度更高的顶点,作为子图 g i g_i gi,其中 S ( i , j ) S(i,j) S(i,j)代表节点 v i v_i vi和节点 v j v_j vj的其密度。计算公式为:

S = α ⋅ ( I − ( 1 − α ) ⋅ A ˉ ) − 1 S=\alpha \cdot (I-(1-\alpha)\cdot \bar{A})^{-1} S=α(I(1α)Aˉ)1

其中 A = A D − 1 A=AD^{-1} A=AD1是列规范化邻接矩阵, α \alpha α是一个超参数,文中设置为0.5

对于每一个顶点,通过这种采样方式,得到无边子图集合 G = { g 1 , g 2 , ⋯   , g ∣ v ∣ } \mathcal{G}=\left\{g_1,g_2,\cdots,g_{|v|}\right\} G={ g1,g2,,gv},其中 g i = { V i , ∅ } g_i=\left\{\mathcal{V}_i,\emptyset\right\} gi={ Vi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值