读《GRAPH-BERT: Only Attention is Needed for Learning Graph Representations》

摘要

主流的GNN过度依赖图连接,现存假死(suspended animation problem)和过度平滑等问题
固有的内连接限制了并行化(但本文并不研究并行化),限制了大规模图的批处理

GRAPH-BERT采用无边子图(也叫上下文)训练
如果有任何监督标签信息或某些面向应用的目标可用,预训练的 GRAPHBERT 也可以直接或经过必要的微调转移到其他应用任务中。
基于带有节点属性重建和结构恢复任务的预训练 GRAPH-BERT,我们进一步在节点分类和图聚类任务上进一步微调 GRAPH-BERT。

1.引言

深层GNN的后果

无法对训练数据做出反应(假死问题)[Zhang and Meng, 2019]
难以区分(过平滑)[Li et al., 2018]

①对无边图进行处理?没了边不就没有图结构了吗?不就成了一堆特征而已?bp都可以解决的基本问题?说是上下文,子图,但是没有边还怎么体现出来呢?
②预训练算是深度学习舍弃掉的特征工程专家系统的那套东西吗?这算是又捡起机器学习的东西?

训练损失仅取决于训练样本量,和样本子图大小(与原图大小无关)

基于节点属性重建(捕捉输入的属性信息)和结构恢复(保证在无边子图上保留原图的局部和全局性质)任务,对无标签图进行无监督的预训练

2.相关工作

GNN

解决假死和过平滑的现有方法:

残差[Zhang and Meng, 2019][Zhang, 2018]
引入残差/稠密连接,和扩散卷积(dilated convolutions)[Li et al., 2018]
引入RNN[Sun et al., 2019; Huang and Carley, 2019]

3.方法

在这里插入图片描述
GRAPH-BERT几部分:

  1. 无边子图批处理
  2. 节点输入嵌入
  3. 基于graph-transformer的编码器
  4. 表示融合
  5. 功能模块

3.2无边子图

定义G = (V, E, w, x, y)
其中x和y分别是节点V对应到其元特征和标签的映射
图的大小由节点数量∣V∣衡量
例如无权图,边集E中对应的权重w赋为1,不存在的赋为0
花体X和Y表示特征空间和标签空间
xi=x(vi),yi=y(vi)

GRAPH-BERT的预训练其实不需要标签监督信息,但也留有部分标签用于节点分类微调任务

现有的采样子图的方法[Zhang et al., 2018]

但本文为了控制采样过程中涉及的随机性,引入了top-k亲密度采样方法(类似于相似度吧)
衡量节点间的亲密度的指标:

Jaccard 系数 [Jaccard, 1901]
Adamic/Adar [Adamic and Adar, 2003]
Katz [Katz, 1953]

本文则采用PageRank算法在这里插入图片描述
其中A-表示列标准化的邻接矩阵,即
在这里插入图片描述

3.3节点输入向量嵌入

GRAPH-BERT实际上满足节点无序性,但为了简化表示,仍然将输入子图节点序列化进有序列表
送到 graph-transformer 模型的输入向量嵌入实际上包括四个部分:(类似于后来的Graph Neural Distance Metric Learning with Graph-Bert一文)

  1. 元特征向量嵌入exj
  2. WL绝对角色嵌入erj
    根据节点在图数据中的结构角色来标记节点,其中具有相同角色的节点将被标记为相同的代码
    可以捕获表示中的全局节点角色信息
  3. 基于亲密度的相对位置嵌入
    在这里插入图片描述
    根据序列化节点列表的放置顺序提取子图中的局部信息
  4. 基于一跳的相对距离嵌入
    可以被视为绝对角色嵌入(对于全局信息)(即erj)和基于亲密关系的相对位置嵌入(对于局部信息)(即epj)之间的平衡。
    在这里插入图片描述

3.4基于Graph Transformer的编码器

聚合上述嵌入得到初始输入
在这里插入图片描述
聚合方式可以选取简单的向量加法
再将所有h(0)拼接得到H(0)矩阵在这里插入图片描述
简化表示,假设节点隐层向量在不同层有统一大小

将对目标节点 vi 计算的残差项添加到每一层子图中所有节点的隐藏状态向量中

不同于NLP的传统Transformer模型学习所有输入标记的表示,本文的Graph Transformer目标仅是获取目标节点的表示。

4 GRAPH-BERT

4.1预训练

节点原始属性重建任务侧重于捕获学习表示中的节点属性信息,
而图结构恢复任务则更侧重于图连接信息。

1节点原始属性重构

在这里插入图片描述
通过全连接得到的重构属性与真实值做损失

2图结构恢复

通过计算两点余弦相似度(表示它们之间的关联度)得到的亲密度与真实亲密度做损失
在这里插入图片描述

4.2模型迁移和微调

1节点分类(必须有微调)

先对融合得到的表示zi进行softmax,得到y^i,与yi做交叉熵做损失

2图聚类(可以直接用学得的表示)

将图中的节点划分为几个不同的簇
对于每个目标集群,例如 Cj ∈ C,我们可以将其中心表示为一个可变向量在这里插入图片描述
对于图聚类任务,主要目标是将相似的节点分组到同一个集群中,而不同的节点将被划分到不同的集群中。
因此,图聚类的目标函数可以定义如下:
在这里插入图片描述
上述目标函数涉及多个要同时学习的变量,所以可以用EM算法代替BP,更有效地训练。
因此,上述图聚类模型不与 GRAPH-BERT一起再训练,而是仅将学习到的节点表示作为学习图聚类模型的节点特征输入。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值