摘要
本文提出了一个统一的双层优化框架 Joint Augmentation Optimization (JOAO),以在图上执行GraphCL时,自动、自适应、动态地选择数据增强方案。该通用框架被实例化为最小-最大优化。JOAO所做的增强选择大体上与以前手工调整中观察到的“最佳实践”一致:但现在是自动化的,更加灵活和通用。此外,我们提出了一种新的增强感知投影头机制,该机制将通过不同的投影头输出特征,不同的投影头对应于在每个训练步骤中选择的不同增强。大量的实验表明,在没有对增强选择采取任何费力的数据集特定的调优的情况下,JOAO在不同规模和类型的多个图形数据集上的表现与包括GraphCL在内的最先进的方法相当,或者有时更好。
1 引言
JOAO的特点:
- 自动化:无需人工选择增强方式。
- 自适应:平稳地推广到不同的图数据。
- 动态化:允许在不同的训练阶段有不同的增强类型。
贡献:
- JOAO是第一个在对图数据进行对比学习时自动进行增强选择的方法。它使GraphCL免于昂贵的试验和错误,经验性的特别规则,或任何基于标记数据的验证。
- JOAO可以表示为一个统一的双级优化框架,并实例化为min-max优化。数据增强的灵感来源于对抗性扰动,并且可以通过交替梯度下降算法来求解。
- 根据JOAO实现的多样化和动态增强,我们设计了一种新的图对比学习增强感知投影头。其基本原理是为了避免太多复杂的增强扭曲原始数据分布。其思想是使每个增强对保持一个非线性投影头,并且每次使用与JOAO当前选择的增强相对应的单个头。
- JOAO被设计为灵活的和多功能的。虽然本文主要在GraphCL上演示了JOAO,但它们并没有相互绑定。JOAO的一般优化公式也允许它易于与其他图对比学习框架集成。
2 准备工作
设
G
=
{
V
,
E
}
G=\{V,E\}
G={V,E}表示空间
G
\mathcal{G}
G中的无向图,
V
V
V和
E
E
E分别为节点集和边集。对于
v
∈
V
v∈V
v∈V,
X
v
∈
R
D
X_v∈\mathcal{R}^D
Xv∈RD为其节点特征。GNN被定义为映射
f
:
G
→
R
D
′
f:\mathcal{G}→\mathcal{R}^{D'}
f:G→RD′,它将样本图
G
G
G编码为一个
D
′
D'
D′维向量。
具体来说,我们将
└
\llcorner
└来自某个经验分布
P
G
\mathbb{P}_\mathsf{G}
PG
┐
\urcorner
┐【随机】的输入图结构样本表示为
G
\mathsf{G}
G。它从一个给定的增强类型池
A
=
{
N
o
d
e
D
r
o
p
,
S
u
b
g
r
a
p
h
,
E
d
g
e
P
e
r
t
,
A
t
t
r
M
a
s
k
,
I
d
e
n
t
i
c
a
l
}
\mathcal{A}=\{NodeDrop, Subgraph,EdgePert, AttrMask,Identical\}
A={NodeDrop,Subgraph,EdgePert,AttrMask,Identical}中采样两个随机增强操作
A
1
\mathsf{A}_1
A1、
A
2
\mathsf{A}_2
A2。
GraphCL优化以下损失:
其中,
T
θ
,
i
=
A
i
◦
f
θ
′
◦
g
θ
′
′
\mathsf{T}_{\theta,i}=\mathsf{A}_i◦f_{\theta'}◦g_{\theta''}
Tθ,i=Ai◦fθ′◦gθ′′由
θ
=
{
θ
′
,
θ
′
′
}
\theta=\{\theta',\theta''\}
θ={θ′,θ′′}参数化。
f
θ
′
:
G
→
R
D
′
f_{\theta'}:\mathcal{G}→\mathcal{R}^{D'}
fθ′:G→RD′,
g
θ
′
′
:
R
D
′
→
R
D
′
′
g_{\theta''}:\mathcal{R}^{D'}→\mathcal{R}^{D''}
gθ′′:RD′→RD′′分别是共享权重的GNN和投影头。
s
i
m
(
u
,
v
)
=
u
T
v
∣
∣
u
∣
∣
∣
∣
v
∣
∣
sim(u,v)=\frac{u^Tv}{||u||||v||}
sim(u,v)=∣∣u∣∣∣∣v∣∣uTv是余弦相似性函数。
P
G
′
=
P
G
\mathbb{P}_{\mathsf{G}'}=\mathbb{P}_\mathsf{G}
PG′=PG是负采样分布,
P
A
1
\mathbb{P}_{\mathsf{A}_1}
PA1和
P
A
2
\mathbb{P}_{\mathsf{A}_2}
PA2是边缘分布。经过对比的预训练后,预训练后的
f
θ
′
∗
f_{\theta'}∗
fθ′∗可以进一步用于各种下游任务的微调。
注意,本文中不同字体含义不同,例如:
G \mathsf{G} G:一个随机变量
G G G:一个采样样本
G \mathcal{G} G:样本空间
3 方法
3.1 JOAO:统一框架
公式(1)的一个明显的限制是,我们需要基于先验规则预先定义采样分布
P
(
A
1
,
A
2
)
\mathbb{P}_{(\mathsf{A}_1,\mathsf{A}_2)}
P(A1,A2)。与之相反,我们在执行GraphCL(1)时,通过以下双层优化框架,动态和自动地学习优化
P
(
A
1
,
A
2
)
\mathbb{P}_{(\mathsf{A}_1,\mathsf{A}_2)}
P(A1,A2):
我们将公式(2)称为联合增强优化(JOAO),其中,上级目标
L
\mathcal{L}
L与GraphCL目标(或任何其他图对比学习方法的目标)相同,下级目标
D
\mathcal{D}
D联合优化采样分布
P
(
A
1
,
A
2
)
\mathbb{P}_{(\mathsf{A}_1,\mathsf{A}_2)}
P(A1,A2),以选择增强对。请注意,JOAO(2)只利用来自自监督训练本身的信号,而不访问下游标记数据进行评估。
3.2 将JOAO实例化为min-max优化
其中,
γ
∈
R
≥
0
γ∈\mathcal{R}_{≥0}
γ∈R≥0、
P
p
r
i
o
r
\mathbb{P}_{prior}
Pprior是所有可能的增强上的先验分布,
d
i
s
t
:
P
×
P
→
R
≥
0
dist:\mathcal{P}×\mathcal{P}→\mathcal{R}_{≥0}
dist:P×P→R≥0是采样与先验分布之间距离的函数。
在这项工作中,我们选择 P p r i o r \mathbb{P}_{prior} Pprior为均匀分布,以促进选择的多样性,遵循贝叶斯学习中最大熵的一般原则。没有其他关于数据集或增强池的假定信息。在实践中,它鼓励更多不同的增强选择,而不是压缩到少数。我们使用平方欧氏距离表示距离 d i s t ( ⋅ , ⋅ ) dist(·,·) dist(⋅,⋅)。因此,我们有 d i s t ( P ( A 1 , A 2 ) , P p r i o r ) = ∑ i = 1 ∣ A ∣ ∑ j = 1 ∣ A ∣ ( p i j − 1 ∣ A ∣ 2 ) 2 dist(\mathbb{P}_{(\mathsf{A}_1,\mathsf{A}_2)},\mathbb{P}_{prior})=\sum_{i=1}^{|\mathcal{A}|}\sum_{j=1}^{|\mathcal{A}|}(p_{ij}-\frac{1}{|\mathcal{A}|^2})^2 dist(P(A1,A2),Pprior)=∑i=1∣A∣∑j=1∣A∣(pij−∣A∣21)2,其中概率 p i j = P r o b ( A 1 = A i , A 2 = A j ) p_{ij}=Prob(\mathsf{A}_1=A^i,\mathsf{A}_2=A^j) pij=Prob(A1=Ai,A2=Aj)。
接下来,我们将介绍如何优化(3)。我们采用交替梯度下降算法(AGD),在上级最小化和下级最大化之间交替,如算法1所述。
(1) 上级最小化
上级最小化(有关
θ
\theta
θ)遵循GraphCL优化(1)中的常规梯度下降程序,给定采样分布
P
(
A
1
,
A
2
)
\mathbb{P}_{(\mathsf{A}_1,\mathsf{A}_2)}
P(A1,A2),表示为:
其中,
α
′
∈
R
>
0
\alpha'∈\mathcal{R}_{>0}
α′∈R>0是学习率。
(2) 下级最大化
由于直接计算下级目标(即
P
(
A
1
,
A
2
)
\mathbb{P}_{(\mathsf{A}_1,\mathsf{A}_2)}
P(A1,A2))的梯度并不直观,我们首先将(1)中的对比损失改写为:
其中,
T
θ
i
=
A
i
◦
f
θ
′
◦
g
θ
′
′
,
(
i
=
1
,
.
.
.
,
5
)
T_{\theta}^i=A^i◦f_{\theta'}◦g_{\theta''},(i=1,...,5)
Tθi=Ai◦fθ′◦gθ′′,(i=1,...,5),边缘概率
p
j
′
=
p
j
=
P
r
o
b
(
A
2
=
A
j
)
p_{j'}=p_j=Prob(\mathsf{A}_2=A_j)
pj′=pj=Prob(A2=Aj)。
在方程(5)中,为了计算梯度,我们将增强
A
1
\mathsf{A}_1
A1、
A
2
\mathsf{A}_2
A2的期望扩展为与
p
i
j
p_{ij}
pij相关的加权求和形式。然而,在负对项的期望中,存在边缘概率
p
j
′
p_{j'}
pj′,因此我们对负对项的下界进行以下数值近似,以解开方程(5)中的
p
i
j
p_{ij}
pij:
其中,第一个不等式来自詹森不等式,第二个近似是数值的。得到近似的对比损失:
通过近似对比损失,公式(3)中的下级最大化被重写为:
其中,
ψ
(
p
)
ψ(\pmb{p})
ψ(ppp)是一个强凹函数,
p
\pmb{p}
ppp in the probability simplex
P
\mathcal{P}
P。因此,执行投影梯度下降来更新选择增强对的采样分布
P
(
A
1
,
A
2
)
\mathbb{P}_{(\mathsf{A}_1,\mathsf{A}_2)}
P(A1,A2),表示为:
其中,
α
′
′
∈
R
>
0
\alpha''∈\mathcal{R}_{>0}
α′′∈R>0是学习率,
μ
\mu
μ是方程
1
T
(
b
−
μ
1
)
=
1
\pmb{1}^T(\pmb{b}-\mu\pmb{1})=1
111T(bbb−μ111)=1的根,
(
⋅
)
+
(·)_+
(⋅)+是元素级的非负运算符。通过双注射法可以有效地找到
μ
\mu
μ。
尽管理论上保证非凸非凹最小-最大问题收敛的优化器仍然是一个开放的挑战,但我们承认AGD是精确求解双级优化(3)的近似方法,这通常需要贝叶斯优化,自动微分或基于某种内环近似解的一阶技术为代价。由于大多数算法的时间或空间复杂性较高,因此采用AGD作为近似启发式算法,主要是为了节省计算开销。它显示了一定程度的经验收敛性,如图2所示。
3.2.1 验证增强选择效果
3.3 增强感知多投影头
为了解决由不同的增强对引起的扭曲特征分布导致的歪曲原始分布的问题,我们在GraphCL中引入了多个投影头和一个增强感知选择方案,如图4所示。
具体来说,我们构造了
∣
A
∣
|\mathcal{A}|
∣A∣个投影头,每个投影头对应一种增强类型(
∣
A
∣
|\mathcal{A}|
∣A∣表示增强池的基数)。在训练过程中,一旦一个增强被采样,它只会通过并更新其相应的投影头。这样,
T
θ
,
i
=
A
i
◦
f
θ
′
◦
g
Θ
i
′
′
,
(
i
=
1
,
2
)
T_{\theta,i}=A_i◦f_{\theta'}◦g_{Θ_i''},(i=1,2)
Tθ,i=Ai◦fθ′◦gΘi′′,(i=1,2)。
表示
L
v
2
(
G
,
A
1
,
A
2
,
θ
′
,
Θ
1
′
′
,
Θ
2
′
′
)
=
E
P
(
g
Θ
1
′
′
,
g
Θ
2
′
′
)
L
(
G
,
A
1
,
A
2
,
{
θ
′
,
(
Θ
1
′
′
,
Θ
2
′
′
)
}
)
\mathcal{L}_{v2}(\mathsf{G},\mathsf{A}_1,\mathsf{A}_2,\theta',Θ_1'',Θ_2'')=\mathbb{E}_{\mathbb{P}_{(g_{Θ_1''},g_{Θ_2''})}}\mathcal{L}(\mathsf{G},\mathsf{A}_1,\mathsf{A}_2,\{\theta',(Θ_1'',Θ_2'')\})
Lv2(G,A1,A2,θ′,Θ1′′,Θ2′′)=EP(gΘ1′′,gΘ2′′)L(G,A1,A2,{θ′,(Θ1′′,Θ2′′)}),我们可以将增强感知投影头机制集成到JOAO框架中,称为JOAOv2:
4 实验