ICML24
推荐指数: #paper/⭐⭐⭐
领域:图增强
人大高瓴实验室,刘勇的学生
刘勇主页:About me - Yong Liu (liuyonggsai.github.io)
刘勇的学校主页:刘勇-教师系统 (ruc.edu.cn) (好强啊,哈哈,好好的老师)
文章理论写的特别好!真的是为了实验服务的那种,有点拍案叫绝
理论背景
贡献:
- 对于对比增强而言,当使用更强的增强时,对比学习受益于类间距离而不是类内距离。更好的对其可能无济于事,因为它与更强的增强所冲突
-
- 建立了下游任务,对比学习损失,alignment performance之间的关系,展示了为什么更强的增强有益。我们分析了理论的结果以及又从光谱的角度去解释
-
- 基于提出的理论结果,我们提出了两种简单但是有效的算法。我们展示了这些算法的延伸对于常见的对比学习算法的帮助
-
增强的部分介绍
- 数据增强被用来去创建新的图 G 1 , G 2 ∈ G a u g \mathcal{G}^1,\mathcal{G}^{2}\in \mathbb{G}^{aug} G1,G2∈Gaug . v i 0 v_{i}^0 vi0 代表原始节点, v i + v_{i}^+ vi+ 代表增强节点 v i 1 , v i 2 v_{i}^1,v_{i}^2 vi1,vi2 。对于负样本 v i 1 v_{i}^1 vi1 来说,他的负样本是 v i − ∈ { v j + ∣ j ≠ i } v_{i}^{-} \in \{v_{j}^{+}|j \neq i\} vi−∈{vj+∣j=i} .节点 v i v_{i} vi 的嵌入是: ∣ ∣ f ( v i ) ∣ ∣ = 1. ||f(v_i)||=1. ∣∣f(vi)∣∣=1.
-
对比增强如何影响下游任务
- 对于增强而言,应该有的是,对于同一个节点,他们应该有相似的嵌入: f ( v i 1 ) ≈ f ( v i 2 ) f(v_{i}^{1})\approx f(v_{i}^{2}) f(vi1)≈f(vi2) 。但是,wang等人指出,完美的匹配和统一并不一定会导致一个好的性能。举例子:假设 { f ( v i 0 ) } i = 1 N \{f(v_i^0)\}_{i=1}^N {f(vi0)}i=1N 是均匀分布, f ( v i 0 ) = f ( v i + ) f(v_{\boldsymbol{i}}^{0})=f(v_{\boldsymbol{i}}^{+}) f(vi0)=f(vi+)。那么,就可能会学习一个平凡接,将所有的特征映射到相同的嵌入,随机的映射这些特征。
- wang等人认为完美对齐和组内增强重叠将是最好的解决方案。完美对其– f ( v i 0 ) = f ( v + ) = f ( v i 0 ) . f(v_{\boldsymbol{i}}^{0}) = f(v^{+}) = f(v_{\boldsymbol{i}}^{0}). f(vi0)=f(v+)=f(vi0).,这会使得类内节点更接近,增强导致的扰乱会更多的出现在类内节点,所以完美的增强和分配是类内聚集
- 但是,saunshi等人指出,即使在强增强的情况下,增强重叠也是很罕见的。强增强会使得对其变得特别困难,这与完美对其相冲突。
10.那么,到底是类内还是类间对于对比学习发挥的作用大呢?
假设2.1: 对于正样本和原样本,我们应该有: p ( y ∣ v i 0 ) = p ( y ∣ v i + ) . p(y|v_{\boldsymbol{i}}^{0})=p(y|v_{\boldsymbol{i}}^{+}). p(y∣vi0)=p(y∣vi+).
其中,y是label。即:对于正负样本来说,在分类时应该有同样的标签。
这一假设被广泛采用:如果扩展仍然保留基本结构并保留大部分特征信息,类别标签不太可能会改变。否则,如果增强破坏了基本标签信息,模型就会学习到trival solution
假设2.2 假设2.1成立,随着增广的增强,增广距离(正样本和原样本)的方差就会增加。 δ a u g 2 = E p ( v i 0 , v i + ) ∣ ∣ f ( v i 0 ) − f ( v i + ) ∣ ∣ 2 \delta_{\boldsymbol{aug}}^2 = \mathbb{E}_{p(v_i^0,v_i^+)}||f(v_i^0) - f(v_i^+)||^2 δaug2=Ep(vi0,vi+)∣∣f(vi0)−f(vi+)∣∣2 。我们可得: δ a u g ∝ G E D ( G 0 , G + ) . G E D ( G 0 , G + ) \delta_{\boldsymbol{aug}}\propto\mathrm{~GED}(\mathcal{G}^0,\mathcal{G}^+).\mathrm{~GED}(\mathcal{G}^0,\mathcal{G}^+) δaug∝ GED(G0,G+). GED(G0,G+) 。GED表示原图与增广图的编辑距离
这是一个很自然的假设,差异越大,产出的差异就越大。这意味着,较小的增广(aug)就会对其的好。更强的增广,对其会变差
定义2.3 我们定义类中心为: μ y = E p ( v , y ) [ f ( v y ) ] \mu_{y}= \mathbb{E}_{p(v,y)}\left[f(v_y)\right] μy=Ep(v,y)[f(vy)] 。(标签为y的样本的中心)。我们表示类内方差和类间方差为:
δ
y
+
2
=
E
p
(
y
,
i
,
j
)
∣
∣
f
(
v
y
,
i
0
)
−
f
(
v
y
,
j
0
)
∣
∣
2
,
δ
y
−
2
=
E
p
(
y
,
y
−
,
i
,
j
)
∣
∣
f
(
v
y
,
i
0
)
−
f
(
v
y
−
,
j
0
)
∣
∣
2
,
\begin{aligned}&\delta_{y^+}^2=\mathbb{E}_{p(y,i,j)}||f(v_{y,i}^0)-f(v_{y,j}^0)||^2,\\&\delta_{y^-}^2=\mathbb{E}_{p(y,y-,i,j)}||f(v_{y,i}^0)-f(v_{y^-,j}^0)||^2,\end{aligned}
δy+2=Ep(y,i,j)∣∣f(vy,i0)−f(vy,j0)∣∣2,δy−2=Ep(y,y−,i,j)∣∣f(vy,i0)−f(vy−,j0)∣∣2,
(标签为y的类的距离即上式1,标签不为y与标签为y的即为类间方差)
由于前人证明:原节点的类嵌入中心和增广节点的嵌入中心不同,因此,计算类中心的时候,应该将增广图的节点包含在之内更好
定理2.4 加入2.1假设成立,我们就有: E p ( v y 0 ∣ y ) ∣ ∣ f ( v y 0 ) − μ y ∣ ∣ ≤ δ y + + 2 3 δ a u g , E p ( v y 0 ∣ y ) ∣ ∣ f ( v y 0 ) − μ y − ∣ ∣ ≤ δ y − + 2 3 δ a u g , \mathbb{E}_{p(v_y^0|y)}||f(v_y^0)-\mu_y||\leq\delta_{y^+}+\frac23\delta_{aug},\\\mathbb{E}_{p(v_y^0|y)}||f(v_y^0)-\mu_{y^-}||\leq\delta_{y^-}+\frac23\delta_{aug}, Ep(vy0∣y)∣∣f(vy0)−μy∣∣≤δy++32δaug,Ep(vy0∣y)∣∣f(vy0)−μy−∣∣≤δy−+32δaug,
解释:左式子,不等式左侧表示正样本与类中心的距离和。右侧则为负样本中心距离。
通过2.2和2.4,我们可以得到:增广距离:
δ
a
u
g
\delta_{aug}
δaug 会随着增广的增强而变大。这就意味着,正样本中心和负样本中心和增广距离
δ
a
u
g
\delta_{aug}
δaug正相关。因此,强增广会同时作用于类内节点和类间节点:帮助类间节点分离,阻止类内节点聚集。
Figure 1
如图,可以看到:随着增广的增强,正中心距离并没有减少。下游任务随着负样本中心的增强而增强。所以,更好的性能和类间分离有关,类内节点不一定会聚集。
通过对于InfoNCE进行分析:
L
N
C
E
=
E
p
(
v
i
1
,
v
i
2
)
E
p
(
v
i
−
)
[
−
log
exp
(
f
(
v
i
1
)
T
f
(
v
i
2
)
)
∑
exp
(
f
(
v
i
1
)
T
f
(
v
i
−
)
)
]
\mathcal{L}_{\mathrm{NCE}}=\mathbb{E}_{p(v_i^1,v_i^2)}\mathbb{E}_{p(v_i^-)}\left[-\log\frac{\exp(f(v_i^1)^Tf(v_i^2))}{\sum\exp(f(v_i^1)^Tf(v_i^-))}\right]
LNCE=Ep(vi1,vi2)Ep(vi−)[−log∑exp(f(vi1)Tf(vi−))exp(f(vi1)Tf(vi2))]
随着增广的幅度更大,会导致正对的不相似。因此GCL将更多的关注与分母的最小化。这就意味着最小化分母实际上是为了有效的分离类间节点。相比之下,增强堆叠仍然难以存在。类内负节点的存在进一步削弱了类内聚集。
从图一我们还可以观测到,随着删除太多的变。特征时,下游性能急剧下降,并且正中心副中心相似性都增加。这是因为由于丢弃了太多的信息,使得基本的假设
p
(
y
∣
v
i
0
)
=
p
(
y
∣
v
i
+
)
p(y|v_{\boldsymbol{i}}^0)=p(y|v_{\boldsymbol{i}}^+)
p(y∣vi0)=p(y∣vi+)不存在,导致了平凡解的被学习到。
增广距离,对比损失和下游性能的关系
我们用平均交叉熵CE来代表下游的性能
平均CEloss:
L
^
C
E
=
E
p
(
v
0
,
y
)
⌊
−
log
exp
(
f
(
v
0
)
T
μ
y
)
∑
j
=
1
K
exp
(
f
(
v
0
)
T
μ
j
)
⌋
\hat{\mathcal{L}}_{\mathrm{CE~}}=\mathrm{~}\mathbb{E}_{p(v^0,y)}\left\lfloor-\log\frac{\exp(f(v^0)^T\mu_y)}{\sum_{j=1}^K\exp(f(v^0)^T\mu_j)}\right\rfloor
L^CE = Ep(v0,y)⌊−log∑j=1Kexp(f(v0)Tμj)exp(f(v0)Tμy)⌋
μ
j
=
E
p
(
v
∣
y
=
j
)
[
f
(
v
)
]
\mu_j=\mathbb{E}_{p(v|y=j)}\left[f(v)\right]
μj=Ep(v∣y=j)[f(v)]
我们可以得到如下推导:
定义2.6
L
^
C
E
≥
L
N
C
E
−
3
δ
a
u
g
2
−
2
δ
a
u
g
−
log
M
K
−
1
2
Var
(
f
(
v
+
)
∣
y
)
−
Var
(
f
(
v
0
)
∣
y
)
−
e
Var
(
μ
y
)
−
O
(
M
−
1
2
)
,
\hat{\mathcal{L}}_{\mathrm{CE}}\geq\mathcal{L}_{\mathrm{NCE}}-3\delta_{aug}^2-2\delta_{aug}-\log\frac MK-\frac12\operatorname{Var}(f(v^+)|y)\\-\sqrt{\operatorname{Var}(f(v^0)|y)}-e\operatorname{Var}(\mu_y)-O(M^{-\frac12}),
L^CE≥LNCE−3δaug2−2δaug−logKM−21Var(f(v+)∣y)−Var(f(v0)∣y)−eVar(μy)−O(M−21),
我们可以发现,当我们执行更强的增广是,下限会变得小,较小的下限不一定会导致更强的性能,但是它会导致有潜在的更优的解决方案
举个例子,
L
^
C
E
≥
0.7
\hat{\mathcal{L}}_{\mathrm{CE}}\geq0.7
L^CE≥0.7 和
L
C
E
>
0.3
{{\mathcal{L}_{\mathrm{CE}}}}>0.3
LCE>0.3,我们会选择右侧的,因为右侧的解更多,能有更优的解。
定义2.6也表明:NCE也可能不能导致下游任务的优秀性能。这也可以得到:更强的增广距离会让下限更小,增强概括性,提升下游性能。还标明更好的概括性与更高的正中心距离相关,这与上面的实验一直。
弱增广会导致更好的对齐,但也会导致较弱的概括。强变得更强时,尽管无法实现完美对齐,但它会促进更好的概括,并可能改善下游性能。当增广太强时,最大限度地减少InfoNSO损失变得具有挑战性
我们的增强方法
定理3.1:CEwith MI
L
^
C
E
≥
log
(
K
)
−
I
(
v
1
,
v
2
)
−
g
(
δ
a
u
g
)
−
O
(
M
−
1
2
)
,
\hat{\mathcal{L}}_{\mathrm{CE}}\geq\log(K)-I(v^1,v^2)-g(\delta_{aug})-O(M^{-\frac12}),
L^CE≥log(K)−I(v1,v2)−g(δaug)−O(M−21),
I
(
v
1
,
v
2
)
I(v^1,v^2)
I(v1,v2)表示两个节点的互信息。
g
(
δ
a
u
g
)
g(\delta_{aug})
g(δaug)随着
δ
a
u
g
\delta_{aug}
δaug的增加而增加。
上十字标明最好的增广是最大化互信息以及增广距离
最好的增强应该是最小化:
I
(
v
1
,
y
)
=
I
(
v
2
,
y
)
=
I
(
v
0
,
y
)
I(v^1,y)=I(v^2,y)=I(v^{0},y)
I(v1,y)=I(v2,y)=I(v0,y)但预训练时下游任务是未知的,所以这实际上是不可能实现的。我们的理论表明,增广应该是强增广,同时保留尽可能多的信息,最好的增强应该是满足InfoMin的增强,这意味着增强消除所有无用信息并保留下游相关信息
为了验证我们的理论,我们提出了一个简单并且有效的方法:识别重要的节点特征以及边,让他们在增广中不改变。对于不重要的信息,我们执行增广
识别重要的部分 --通过梯度计算
α
v
,
p
=
∂
L
N
C
E
∂
x
v
,
p
,
α
p
=
R
e
L
U
(
1
∣
V
′
∣
∑
v
α
v
,
p
)
,
α
v
=
R
e
L
U
(
1
∣
P
′
∣
∑
p
α
v
,
p
)
,
α
e
i
,
j
=
(
α
v
i
+
α
v
j
)
/
2
,
\begin{aligned}&\alpha_{v,p}=\frac{\partial\mathcal{L}_{\mathrm{NCE}}}{\partial x_{v,p}},\quad\alpha_p=\mathrm{ReLU}\left(\frac1{|V^{\prime}|}\sum_v\alpha_{v,p}\right),\\&\alpha_{v}=\mathrm{ReLU}\left(\frac1{|P^{\prime}|}\sum_p\alpha_{v,p}\right),\quad\alpha_{e_{i,j}}=\left(\alpha_{v_i}+\alpha_{v_j}\right)/2,\end{aligned}
αv,p=∂xv,p∂LNCE,αp=ReLU(∣V′∣1v∑αv,p),αv=ReLU(∣P′∣1p∑αv,p),αei,j=(αvi+αvj)/2,
α
v
,
p
\alpha_{v,p}
αv,p是节点v的第
p
t
h
p^{th}
pth个重要的特征,
α
p
\alpha_{p}
αp是
p
t
h
p^{th}
pth个特征的重要性。
α
v
\alpha_{\boldsymbol{v}}
αv是节点v的重要性,
α
e
i
,
j
\alpha_{e_{i,j}}
αei,j表示
e
d
g
e
(
v
i
,
v
j
)
edge (v_{i},v_{j})
edge(vi,vj)的重要性。
掩码策略
对于重要性相对较低的边缘/特征,我们可以通过自由的掩盖这些边缘/特征,但是我们应该确定这些掩盖的特征的数量大于保留的边缘/特征的数量,以防止
δ
a
u
g
\delta_{aug}
δaug的减少。
A
~
=
A
∗
(
M
e
∨
S
e
∧
D
e
)
,
F
~
=
F
∗
(
M
f
∨
S
f
∧
D
f
)
,
\tilde{\boldsymbol{A}}=\boldsymbol{A}*(\boldsymbol{M}_e\vee\boldsymbol{S}_e\wedge\boldsymbol{D}_e),\quad\tilde{\boldsymbol{F}}=\boldsymbol{F}*(\boldsymbol{M}_f\vee\boldsymbol{S}_f\wedge\boldsymbol{D}_f),
A~=A∗(Me∨Se∧De),F~=F∗(Mf∨Sf∧Df),
其中,* 是handamard积。
M
e
,
M
f
M_{e},M_{f}
Me,Mf代表随机掩码矩阵,可以被任何掩码策略生成。
S
e
,
S
f
S_{e},S_{f}
Se,Sf是基于重要性的保留矩阵。它来保证高置信度的边/特诊应该被不保留。对于top
ξ
\xi
ξ 重要的特征/边,我们分别设置
S
e
,
S
f
S_{e},S_{f}
Se,Sf 百分之50%的概率为1,0。
D
e
,
D
f
D_{e},D_{f}
De,Df展现出应该被删除的节点和特征,前者有50%的概率置为0,后者有50%的概率设置为1
谱分析的角度去解释:(谱增广)
这部分,尝试从谱的角度去分析infoNCE损失和增广距离。因为图和GCN天然与谱理论相关。我们使用邻接矩阵A来表示光谱
定理3.2 A 是邻接矩阵, A ′ , A ′ ′ 是增强矩阵。第 i 个特征值为 λ i ′ , λ i ′ ′ A是邻接矩阵,A',A'' 是增强矩阵。第i个特征值为\lambda_{i}',\lambda_{i}'' A是邻接矩阵,A′,A′′是增强矩阵。第i个特征值为λi′,λi′′
L N C E ≥ N log N − ( N + 1 ) ∑ i θ i λ i ′ λ i ′ ′ , \mathcal{L}_\mathrm{NCE}\geq N\log N-(N+1)\sum_i\theta_i\lambda_i^{\prime}\lambda_i^{\prime\prime}, LNCE≥NlogN−(N+1)i∑θiλi′λi′′,
定理3.3 2 δ a u g ≥ E p ( v i 1 , v i 2 ) ∥ f ( v i 1 ) − f ( v i 2 ) ∥ ≥ 2 − 2 N ∑ i θ i λ i ′ λ i ′ ′ . 2\delta_{aug}\geq\mathbb{E}_{p(v_i^1,v_i^2)}\|f(v_i^1)-f(v_i^2)\|\geq\sqrt{2-\frac2N\sum_i\theta_i\lambda_i^{\prime}\lambda_i^{\prime\prime}}. 2δaug≥Ep(vi1,vi2)∥f(vi1)−f(vi2)∥≥2−N2∑iθiλi′λi′′.
定理3.3证明了,当
θ
i
\theta_{i}
θi是正值,一个小的
L
N
C
E
\mathcal{L}_{{NCE}}
LNCE需要一个大的特征值
∣
λ
i
∣
|\lambda_{i}|
∣λi∣然而一个大的
δ
a
u
g
\delta_{aug}
δaug需要一个小的
∣
λ
i
∣
|\lambda_i|
∣λi∣。并且他只在
θ
i
\theta_{i}
θi为负值时其作者用。对于最小化
L
N
C
E
\mathcal{L}_{NCE}
LNCE的对比学习,随着训练的进行,
θ
s
\theta s
θs会增加。为了实现平衡,我们应该减少
∣
λ
i
∣
|\lambda_{i}|
∣λi∣当infoNCE在减少的时候。
yang等人表示,不平滑的光谱的卷积操作会导致较大幅度的特征值的特征量相关,并导致对应幅度小的特征值的特征量垂直。所以对于足够的图卷积操作,如果
∣
λ
i
∣
>
∣
λ
j
∣
|\lambda_i|>|\lambda_j|
∣λi∣>∣λj∣,我们可以得到嵌入
f
(
v
)
f(v)
f(v)满足
sim
(
f
(
v
)
,
e
i
)
≫
sim
(
f
(
v
)
,
e
j
)
\operatorname{sim}(f(v),e_{i})\gg\operatorname{sim}(f(v),e_{j})
sim(f(v),ei)≫sim(f(v),ej)。这会导致所有的特征相似于
e
i
e_{i}
ei。因此,不平滑的光谱可能导致相似的表征以及结果的过平滑。这表明,更高的
∣
λ
i
∣
\left|\lambda_{i}\right|
∣λi∣导致
f
(
v
i
1
)
f(v_{\boldsymbol{i}}^{1})
f(vi1)和
f
(
v
i
2
)
f(v_{\boldsymbol{i}}^{2})
f(vi2)更相似。实际上,可以这样理解:减少
∣
λ
i
∣
|\lambda_{i}|
∣λi∣实际上减少了正的
λ
i
\lambda_{i}
λi,增加了负的
λ
i
\lambda_{i}
λi。这意味着尝试在图谱领域去平滑特征值
即:平滑图光谱可以帮助对比学习
我们提出了一种简单的增强方法:随着训练的进行,参数
θ
i
s
\theta_{i}s
θis应该是增加的,因此我们可以使用
θ
i
\theta_{i}
θi作为一个展示是否这个模型被正确训练的符号。随着
θ
i
\theta_{i}
θi的逐渐增加,我们可以增加
λ
\lambda
λ。当
θ
i
\theta_{i}
θi开始去减少,这可能是我们改变光谱的幅度太大了,我们应该撤回一步。
λ
i
=
λ
i
+
direction
i
∗
λ
i
∗
α
,
d
i
r
e
c
t
i
o
n
i
=
{
−
1
,
c
u
r
(
θ
i
)
−
p
r
e
(
θ
i
)
≥
ϵ
1
,
c
u
r
(
θ
i
)
−
p
r
e
(
θ
i
)
≤
−
ϵ
,
0
,
o
t
h
e
r
w
i
s
e
\begin{gathered} \lambda_{i} =\lambda_i+\text{direction}_i*\lambda_i*\alpha, \\ direction_i =\begin{cases}-1,&\mathrm{cur}(\theta_i)-\mathrm{pre}(\theta_i)\geq\epsilon\\1,&\mathrm{cur}(\theta_i)-\mathrm{pre}(\theta_i)\leq-\epsilon,\\0,&\mathrm{otherwise}&\end{cases} \end{gathered}
λi=λi+directioni∗λi∗α,directioni=⎩
⎨
⎧−1,1,0,cur(θi)−pre(θi)≥ϵcur(θi)−pre(θi)≤−ϵ,otherwise
α
\alpha
α 是一个决定我们是否应该增加、减少多少
λ
i
\lambda_{i}
λi的超参。
ϵ
\epsilon
ϵ 被使用去决定是否
θ
i
\theta_{i}
θi
是增加,减少的。或者仅仅爆出稳定。
cur
(
θ
i
)
\operatorname{cur}(\theta_i)
cur(θi)以及
p
r
e
(
θ
i
)
\mathrm{pre}(\theta_{i})
pre(θi)代表现在和以前的
θ
i
\theta_{i}
θi。通过这种方式,对比学习训练将会增加
θ
\theta
θ结果以一个低的
L
N
C
E
\mathcal{L}_{NCE}
LNCE,我们通过
λ
i
\lambda_{i}
λi取实现一个更好的增强距离。
结果
graph with information augmentation:-I
graph with spectrum augmentation -S
总结
写的很好,做的笔记不足以展现文章的优秀之处,推荐读原文。
文章通过理论和实践探明了为什么随着droprate的增加,对比学习会变好,并且随着droprate过增加(接近于1),对比学习会变差。并针对这一理论,提出了相应的两种增强方法–基于可信度的增强(节点,边等),基于光谱的增强