图增强对比学习
摘要
对于GNN来说,在图结构数据上的可推广、可转移和鲁棒的表示学习仍然是一个挑战。本文提出了一个用于学习图的无监督表示的图对比学习框架——GraphCL。首先,设计了四种类型的图增强器来合并各种先验。然后,我们系统地研究了不同的图增强组合在四种设置下对多个数据集的影响:半监督、无监督、迁移学习以及对抗性攻击。结果表明,即使不调优增强范围,也不使用复杂的GNN架构,我们的GraphCL框架与最先进的方法相比,也可以产生类似或更好的通用性、可转移性和鲁棒性的图形表示。我们还研究了参数化图增强范围和模式的影响,并在初步实验中观察到进一步的性能提高。
1 引言
本文的贡献:
- 首先设计了四种类型的图数据增强,每种增强都对图数据施加一定的先验,并对范围和模式进行参数化。
- 利用上述图增强获得相关视图,提出了一种新的GNN预训练图对比学习框架(GraphCL),以便对于不同的图结构数据学习对特定扰动不变的表示。此外,我们还证明了GraphCL可以重写为一个通用框架,统一了图结构数据上广泛的对比学习方法。
- 进行了系统研究,评估了不同类型数据集上不同增强的性能,揭示了性能的基本原理,并为特定数据集采用框架提供了指导。
- 实验表明,GraphCL在半监督学习、无监督表示学习和迁移学习的设置下取得了最先进的性能。此外,它还提高了对常见对抗性攻击的鲁棒性。
2 相关工作
- GNN
3 方法
3.1 图的数据增强
数据增强的目的是通过应用不影响语义标签的某些转换来创建新的和现实的合理的数据。除了一些计算成本昂贵的图外,它仍然没有得到充分的探索。我们主要关注图级的增强。
给定一个图 G ∈ { G m : m ∈ M } \mathcal{G}∈\{\mathcal{G}_m:m∈M\} G∈{Gm:m∈M},它属于一个含有 M M M个图的数据集,我们建立了增广图 G ^ \hat{\mathcal{G}} G^满足: G ^ ∼ q ( G ^ ∣ G ) \hat{\mathcal{G}}∼q(\hat{\mathcal{G}}|\mathcal{G}) G^∼q(G^∣G),其中 q ( ⋅ ∣ G ^ ) q(\hat{·|\mathcal{G}}) q(⋅∣G^)是基于原始图的增强分布,它是预定义的,表示数据分布的人为先验。 例如,对于图像分类,旋转和裁剪的应用会对先验进行编码,即人们将从旋转的图像或其局部补丁中获得相同的基于分类的语义知识。
说到图,我们也可以遵循同样的思想。然而,一个挑战是图数据集是从不同的领域中提取的,因此可能没有像图像那样存在普遍适当的数据增强。换句话说,对于不同类别的图数据集,一些数据可能比其他数据更需要增强。我们主要关注以下三类:生化分子(例如化学化合物、蛋白质),社交网络和图像超像素图。接下来,我们对图结构数据提出了四种一般的数据增强方法,并讨论了它们引入的直观先验。
(1)Node dropping
给定图 G \mathcal{G} G,Node dropping 将随机丢弃部分顶点及其连接。它执行的基本先验是缺少一部分顶点不影响 G \mathcal{G} G的语义意义。每个节点的dropping概率遵循默认的i.i.d均匀分布(或任何其他分布)。
(2)Edge perturbation
它将通过随机添加或删除一定比例的边来扰乱 G \mathcal{G} G中的连通性。这意味着 G \mathcal{G} G的语义意义对边缘连接模式的变化具有一定的鲁棒性。我们也遵循i.i.d均匀分布增减每条边。
(3)Attribute masking
属性掩蔽使模型使用其上下文信息恢复掩蔽的顶点属性,即剩余的属性。基本的假设是缺少部分顶点属性对模型预测的影响不太大。
(4)Subgraph
使用随机游走从 G \mathcal{G} G采样一个子图。它假设 G \mathcal{G} G的语义可以在其(部分)局部结构中大量保留。
3.2 图对比学习
GraphCL框架如图1所示。
该框架包括以下四个主要组成部分:
(1)图数据增强
对给定的图 G \mathcal{G} G进行图数据增强,获得两个相关的视图 G ^ i \hat{\mathcal{G}}_i G^i, G ^ j \hat{\mathcal{G}}_j G^j作为正对,其中 G ^ i ∼ q i ( ⋅ ∣ G ) \hat{\mathcal{G}}_i∼q_i(·|\mathcal{G}) G^i∼qi(⋅∣G), G ^ j ∼ q j ( ⋅ ∣ G ) \hat{\mathcal{G}}_j∼q_j(·|\mathcal{G}) G^j∼qj(⋅∣G)。对于图数据集的不同领域,如何战略性地选择数据增强功能很重要。
(2)基于GNN的编码器
一个基于GNN的编码器 f ( ⋅ ) f(·) f(⋅)(在2中定义)提取增广图 G ^ i \hat{\mathcal{G}}_i G^i, G ^ j \hat{\mathcal{G}}_j G^j的图级表示向量 h i \pmb{h}_i hhhi, h j \pmb{h}_j hhhj。图形对比学习对GNN体系结构没有任何约束。
(3)投影头
一个命名为 g ( ⋅ ) g(·) g(⋅)的非线性变换投影头将增强表示映射到另一个潜在空间,在那里计算对比损失。在图对比学习中,采用两层感知器(MLP)获得 z i \pmb{z}_i zzzi, z j \pmb{z}_j zzzj。
(4)对比损失函数
定义了一个对比损失函数 L ( ⋅ ) \mathcal{L}(·) L(⋅),以强制最大化正对 z i \pmb{z}_i zzzi, z j \pmb{z}_j zzzj与负对之间的一致性。这里我们使用归一化温度尺度交叉熵损失(NT-Xent)。
在GNN预训练过程中,对一小批
N
N
N个图进行随机采样并通过对比学习处理,得到
2
N
2N
2N个增广图和相应的对比损失进行优化,我们将小批图中的第
n
n
n个图重新注释为
z
n
,
i
\pmb{z}_{n,i}
zzzn,i,
z
n
,
j
\pmb{z}_{n,j}
zzzn,j。负对不是显式采样的,而是来自相同小批中的其他
N
−
1
N-1
N−1增广图。将第
n
n
n个图的余弦相似函数表示为
s
i
m
(
z
n
,
i
sim(\pmb{z}_{n,i}
sim(zzzn,i,
z
n
,
j
)
=
z
n
,
i
T
z
n
,
j
/
∣
∣
z
n
,
i
∣
∣
∣
∣
z
n
,
j
∣
∣
\pmb{z}_{n,j})=\pmb{z}_{n,i}^T\pmb{z}_{n,j}/||\pmb{z}_{n,i}||||\pmb{z}_{n,j}||
zzzn,j)=zzzn,iTzzzn,j/∣∣zzzn,i∣∣∣∣zzzn,j∣∣,第
n
n
n个图的NT-Xent定义为:
最终的损失是计算在小批中所有的正对。
Discussion. 我们首先证明了GraphCL可以看作是两种增广图的潜在表示之间互信息最大化的一种方法。损失重写如下:
上述损失基本上最大化了
h
i
=
f
1
(
G
^
i
)
,
h
j
=
f
2
(
G
^
j
)
\pmb{h}_i=f_1(\hat{\mathcal{G}}_i),\pmb{h}_j=f_2(\hat{\mathcal{G}}_j)
hhhi=f1(G^i),hhhj=f2(G^j)之间的互信息的下界,即
(
f
1
,
G
^
i
)
,
(
f
2
,
G
^
j
)
(f_1,\hat{\mathcal{G}}_i),(f_2,\hat{\mathcal{G}}_j)
(f1,G^i),(f2,G^j)的组成决定了我们所需的图视图。此外,我们将GraphCL与最近提出的对比学习方法联系起来,我们证明了通过重新解释(4),GraphCL可以作为一个通用框架重写,统一图结构数据上的广泛对比学习方法。在我们的实现中,我们选择
f
1
=
f
2
f_1=f_2
f1=f2,并通过数据增强生成
G
i
\mathcal{G}_i
Gi,
G
j
\mathcal{G}_j
Gj,而随着组合的各种选择,(4)实例化为其他特定的对比学习算法。
4 数据增强在图对比学习中的作用
在本节中,我们将评估并合理化数据增强的作用。将不同的增强类型(如图2所示)应用于三类图数据集(如表2所示)。实验是在半监督的设置下进行的,遵循预训练和微调的方法。
4.1 数据增强至关重要。增强组合好处。
我们首先研究是否以及何时应用(不同的)数据增强一般是否有助于图对比学习。我们在图2中总结了结果(使用与从头开始训练(无预训练)相比的精度提高)。
我们列出了以下的观察结果:
- 数据增强在图的对比学习中至关重要。
- 组成不同的增强的好处更多。
4.2 有效图增强的类型、范围和模式
然后,我们注意到,(大多数)增强类型的有益组合可以是特定于数据集的,这与我们的直觉相匹配,因为图结构的数据具有高度异构的性质。我们总结我们的观察结果并得出见解。我们进一步分析了给定类型的图增强的范围和/或模式的影响。
- Edge perturbation有利于社会网络,但会损害一些生化分子。
- Attribute masking在更密集的图中实现了更好的性能。
- Node dropping和subgraph通常在不同的数据集之间都是有益的。
4.3 与“harder”任务不同,过于简单的对比任务没有帮助。
结论:总的来说,我们决定实验部分的增强池为:
- biochemical molecules:node dropping 和 subgraph;
- dense social networks:all;
- sparse social networks:all except attribute masking。
范围和模式是默认的,即使改变它们可以更有帮助。
4 与最先进的方法进行的比较
半监督学习:
无监督表示学习:
迁移学习:
对抗鲁棒性: