d:\obsidian\pages\Perfect Alignment May be Poisonous to Graph Contrastive Learning.md

ICML24
推荐指数: #paper/⭐⭐⭐
领域:图增强
人大高瓴实验室,刘勇的学生
刘勇主页:About me - Yong Liu (liuyonggsai.github.io)
刘勇的学校主页:刘勇-教师系统 (ruc.edu.cn) (好强啊,哈哈,好好的老师)
文章理论写的特别好!真的是为了实验服务的那种,有点拍案叫绝

理论背景

贡献:

  1. 对于对比增强而言,当使用更强的增强时,对比学习受益于类间距离而不是类内距离。更好的对其可能无济于事,因为它与更强的增强所冲突
    1. 建立了下游任务,对比学习损失,alignment performance之间的关系,展示了为什么更强的增强有益。我们分析了理论的结果以及又从光谱的角度去解释
    1. 基于提出的理论结果,我们提出了两种简单但是有效的算法。我们展示了这些算法的延伸对于常见的对比学习算法的帮助
  2. 增强的部分介绍

  3. 数据增强被用来去创建新的图 G 1 , G 2 ∈ G a u g \mathcal{G}^1,\mathcal{G}^{2}\in \mathbb{G}^{aug} G1,G2Gaug . v i 0 v_{i}^0 vi0 代表原始节点, v i + v_{i}^+ vi+ 代表增强节点 v i 1 , v i 2 v_{i}^1,v_{i}^2 vi1,vi2 。对于负样本 v i 1 v_{i}^1 vi1 来说,他的负样本是 v i − ∈ { v j + ∣ j ≠ i } v_{i}^{-} \in \{v_{j}^{+}|j \neq i\} vi{vj+j=i} .节点 v i v_{i} vi 的嵌入是: ∣ ∣ f ( v i ) ∣ ∣ = 1. ||f(v_i)||=1. ∣∣f(vi)∣∣=1.
  4. 对比增强如何影响下游任务

  5. 对于增强而言,应该有的是,对于同一个节点,他们应该有相似的嵌入: f ( v i 1 ) ≈ f ( v i 2 ) f(v_{i}^{1})\approx f(v_{i}^{2}) f(vi1)f(vi2) 。但是,wang等人指出,完美的匹配和统一并不一定会导致一个好的性能。举例子:假设 { f ( v i 0 ) } i = 1 N \{f(v_i^0)\}_{i=1}^N {f(vi0)}i=1N 是均匀分布, f ( v i 0 ) = f ( v i + ) f(v_{\boldsymbol{i}}^{0})=f(v_{\boldsymbol{i}}^{+}) f(vi0)=f(vi+)。那么,就可能会学习一个平凡接,将所有的特征映射到相同的嵌入,随机的映射这些特征。
  6. wang等人认为完美对齐和组内增强重叠将是最好的解决方案。完美对其– f ( v i 0 ) = f ( v + ) = f ( v i 0 ) . f(v_{\boldsymbol{i}}^{0}) = f(v^{+}) = f(v_{\boldsymbol{i}}^{0}). f(vi0)=f(v+)=f(vi0).,这会使得类内节点更接近,增强导致的扰乱会更多的出现在类内节点,所以完美的增强和分配是类内聚集
  7. 但是,saunshi等人指出,即使在强增强的情况下,增强重叠也是很罕见的。强增强会使得对其变得特别困难,这与完美对其相冲突。
    10.那么,到底是类内还是类间对于对比学习发挥的作用大呢?
假设2.1: 对于正样本和原样本,我们应该有: p ( y ∣ v i 0 ) = p ( y ∣ v i + ) . p(y|v_{\boldsymbol{i}}^{0})=p(y|v_{\boldsymbol{i}}^{+}). p(yvi0)=p(yvi+).

其中,y是label。即:对于正负样本来说,在分类时应该有同样的标签。
这一假设被广泛采用:如果扩展仍然保留基本结构并保留大部分特征信息,类别标签不太可能会改变。否则,如果增强破坏了基本标签信息,模型就会学习到trival solution

假设2.2 假设2.1成立,随着增广的增强,增广距离(正样本和原样本)的方差就会增加。 δ a u g 2 = E p ( v i 0 , v i + ) ∣ ∣ f ( v i 0 ) − f ( v i + ) ∣ ∣ 2 \delta_{\boldsymbol{aug}}^2 = \mathbb{E}_{p(v_i^0,v_i^+)}||f(v_i^0) - f(v_i^+)||^2 δaug2=Ep(vi0,vi+)∣∣f(vi0)f(vi+)2 。我们可得: δ a u g ∝   G E D ( G 0 , G + ) .   G E D ( G 0 , G + ) \delta_{\boldsymbol{aug}}\propto\mathrm{~GED}(\mathcal{G}^0,\mathcal{G}^+).\mathrm{~GED}(\mathcal{G}^0,\mathcal{G}^+) δaug GED(G0,G+). GED(G0,G+) 。GED表示原图与增广图的编辑距离

这是一个很自然的假设,差异越大,产出的差异就越大。这意味着,较小的增广(aug)就会对其的好。更强的增广,对其会变差

定义2.3 我们定义类中心为: μ y = E p ( v , y ) [ f ( v y ) ] \mu_{y}= \mathbb{E}_{p(v,y)}\left[f(v_y)\right] μy=Ep(v,y)[f(vy)] 。(标签为y的样本的中心)。我们表示类内方差和类间方差为:

δ y + 2 = E p ( y , i , j ) ∣ ∣ f ( v y , i 0 ) − f ( v y , j 0 ) ∣ ∣ 2 , δ y − 2 = E p ( y , y − , i , j ) ∣ ∣ f ( v y , i 0 ) − f ( v y − , j 0 ) ∣ ∣ 2 , \begin{aligned}&\delta_{y^+}^2=\mathbb{E}_{p(y,i,j)}||f(v_{y,i}^0)-f(v_{y,j}^0)||^2,\\&\delta_{y^-}^2=\mathbb{E}_{p(y,y-,i,j)}||f(v_{y,i}^0)-f(v_{y^-,j}^0)||^2,\end{aligned} δy+2=Ep(y,i,j)∣∣f(vy,i0)f(vy,j0)2,δy2=Ep(y,y,i,j)∣∣f(vy,i0)f(vy,j0)2,
(标签为y的类的距离即上式1,标签不为y与标签为y的即为类间方差)
由于前人证明:原节点的类嵌入中心和增广节点的嵌入中心不同,因此,计算类中心的时候,应该将增广图的节点包含在之内更好

定理2.4 加入2.1假设成立,我们就有: E p ( v y 0 ∣ y ) ∣ ∣ f ( v y 0 ) − μ y ∣ ∣ ≤ δ y + + 2 3 δ a u g , E p ( v y 0 ∣ y ) ∣ ∣ f ( v y 0 ) − μ y − ∣ ∣ ≤ δ y − + 2 3 δ a u g , \mathbb{E}_{p(v_y^0|y)}||f(v_y^0)-\mu_y||\leq\delta_{y^+}+\frac23\delta_{aug},\\\mathbb{E}_{p(v_y^0|y)}||f(v_y^0)-\mu_{y^-}||\leq\delta_{y^-}+\frac23\delta_{aug}, Ep(vy0y)∣∣f(vy0)μy∣∣δy++32δaug,Ep(vy0y)∣∣f(vy0)μy∣∣δy+32δaug,

解释:左式子,不等式左侧表示正样本与类中心的距离和。右侧则为负样本中心距离。
通过2.2和2.4,我们可以得到:增广距离: δ a u g \delta_{aug} δaug 会随着增广的增强而变大。这就意味着,正样本中心和负样本中心和增广距离 δ a u g \delta_{aug} δaug正相关。因此,强增广会同时作用于类内节点和类间节点:帮助类间节点分离,阻止类内节点聚集。

Figure 1

文章配图
如图,可以看到:随着增广的增强,正中心距离并没有减少。下游任务随着负样本中心的增强而增强。所以,更好的性能和类间分离有关,类内节点不一定会聚集。

通过对于InfoNCE进行分析:

L N C E = E p ( v i 1 , v i 2 ) E p ( v i − ) [ − log ⁡ exp ⁡ ( f ( v i 1 ) T f ( v i 2 ) ) ∑ exp ⁡ ( f ( v i 1 ) T f ( v i − ) ) ] \mathcal{L}_{\mathrm{NCE}}=\mathbb{E}_{p(v_i^1,v_i^2)}\mathbb{E}_{p(v_i^-)}\left[-\log\frac{\exp(f(v_i^1)^Tf(v_i^2))}{\sum\exp(f(v_i^1)^Tf(v_i^-))}\right] LNCE=Ep(vi1,vi2)Ep(vi)[logexp(f(vi1)Tf(vi))exp(f(vi1)Tf(vi2))]
随着增广的幅度更大,会导致正对的不相似。因此GCL将更多的关注与分母的最小化。这就意味着最小化分母实际上是为了有效的分离类间节点。相比之下,增强堆叠仍然难以存在。类内负节点的存在进一步削弱了类内聚集。
从图一我们还可以观测到,随着删除太多的变。特征时,下游性能急剧下降,并且正中心副中心相似性都增加。这是因为由于丢弃了太多的信息,使得基本的假设 p ( y ∣ v i 0 ) = p ( y ∣ v i + ) p(y|v_{\boldsymbol{i}}^0)=p(y|v_{\boldsymbol{i}}^+) p(yvi0)=p(yvi+)不存在,导致了平凡解的被学习到。

增广距离,对比损失和下游性能的关系

我们用平均交叉熵CE来代表下游的性能
平均CEloss:
L ^ C E   =   E p ( v 0 , y ) ⌊ − log ⁡ exp ⁡ ( f ( v 0 ) T μ y ) ∑ j = 1 K exp ⁡ ( f ( v 0 ) T μ j ) ⌋ \hat{\mathcal{L}}_{\mathrm{CE~}}=\mathrm{~}\mathbb{E}_{p(v^0,y)}\left\lfloor-\log\frac{\exp(f(v^0)^T\mu_y)}{\sum_{j=1}^K\exp(f(v^0)^T\mu_j)}\right\rfloor L^CE = Ep(v0,y)logj=1Kexp(f(v0)Tμj)exp(f(v0)Tμy)
μ j = E p ( v ∣ y = j ) [ f ( v ) ] \mu_j=\mathbb{E}_{p(v|y=j)}\left[f(v)\right] μj=Ep(vy=j)[f(v)]
我们可以得到如下推导:

定义2.6

L ^ C E ≥ L N C E − 3 δ a u g 2 − 2 δ a u g − log ⁡ M K − 1 2 Var ⁡ ( f ( v + ) ∣ y ) − Var ⁡ ( f ( v 0 ) ∣ y ) − e Var ⁡ ( μ y ) − O ( M − 1 2 ) , \hat{\mathcal{L}}_{\mathrm{CE}}\geq\mathcal{L}_{\mathrm{NCE}}-3\delta_{aug}^2-2\delta_{aug}-\log\frac MK-\frac12\operatorname{Var}(f(v^+)|y)\\-\sqrt{\operatorname{Var}(f(v^0)|y)}-e\operatorname{Var}(\mu_y)-O(M^{-\frac12}), L^CELNCE3δaug22δauglogKM21Var(f(v+)y)Var(f(v0)y) eVar(μy)O(M21),
我们可以发现,当我们执行更强的增广是,下限会变得小,较小的下限不一定会导致更强的性能,但是它会导致有潜在的更优的解决方案
举个例子, L ^ C E ≥ 0.7 \hat{\mathcal{L}}_{\mathrm{CE}}\geq0.7 L^CE0.7 L C E > 0.3 {{\mathcal{L}_{\mathrm{CE}}}}>0.3 LCE>0.3,我们会选择右侧的,因为右侧的解更多,能有更优的解。
定义2.6也表明:NCE也可能不能导致下游任务的优秀性能。这也可以得到:更强的增广距离会让下限更小,增强概括性,提升下游性能。还标明更好的概括性与更高的正中心距离相关,这与上面的实验一直。
弱增广会导致更好的对齐,但也会导致较弱的概括。强变得更强时,尽管无法实现完美对齐,但它会促进更好的概括,并可能改善下游性能。当增广太强时,最大限度地减少InfoNSO损失变得具有挑战性

我们的增强方法

定理3.1:CEwith MI

L ^ C E ≥ log ⁡ ( K ) − I ( v 1 , v 2 ) − g ( δ a u g ) − O ( M − 1 2 ) , \hat{\mathcal{L}}_{\mathrm{CE}}\geq\log(K)-I(v^1,v^2)-g(\delta_{aug})-O(M^{-\frac12}), L^CElog(K)I(v1,v2)g(δaug)O(M21),
I ( v 1 , v 2 ) I(v^1,v^2) I(v1,v2)表示两个节点的互信息。 g ( δ a u g ) g(\delta_{aug}) g(δaug)随着 δ a u g \delta_{aug} δaug的增加而增加。
上十字标明最好的增广是最大化互信息以及增广距离
最好的增强应该是最小化: I ( v 1 , y ) = I ( v 2 , y ) = I ( v 0 , y ) I(v^1,y)=I(v^2,y)=I(v^{0},y) I(v1,y)=I(v2,y)=I(v0,y)但预训练时下游任务是未知的,所以这实际上是不可能实现的。我们的理论表明,增广应该是强增广,同时保留尽可能多的信息,最好的增强应该是满足InfoMin的增强,这意味着增强消除所有无用信息并保留下游相关信息
为了验证我们的理论,我们提出了一个简单并且有效的方法:识别重要的节点特征以及边,让他们在增广中不改变。对于不重要的信息,我们执行增广

识别重要的部分 --通过梯度计算

α v , p = ∂ L N C E ∂ x v , p , α p = R e L U ( 1 ∣ V ′ ∣ ∑ v α v , p ) , α v = R e L U ( 1 ∣ P ′ ∣ ∑ p α v , p ) , α e i , j = ( α v i + α v j ) / 2 , \begin{aligned}&\alpha_{v,p}=\frac{\partial\mathcal{L}_{\mathrm{NCE}}}{\partial x_{v,p}},\quad\alpha_p=\mathrm{ReLU}\left(\frac1{|V^{\prime}|}\sum_v\alpha_{v,p}\right),\\&\alpha_{v}=\mathrm{ReLU}\left(\frac1{|P^{\prime}|}\sum_p\alpha_{v,p}\right),\quad\alpha_{e_{i,j}}=\left(\alpha_{v_i}+\alpha_{v_j}\right)/2,\end{aligned} αv,p=xv,pLNCE,αp=ReLU(V1vαv,p),αv=ReLU(P1pαv,p),αei,j=(αvi+αvj)/2,
α v , p \alpha_{v,p} αv,p是节点v的第 p t h p^{th} pth个重要的特征, α p \alpha_{p} αp p t h p^{th} pth个特征的重要性。 α v \alpha_{\boldsymbol{v}} αv是节点v的重要性, α e i , j \alpha_{e_{i,j}} αei,j表示 e d g e ( v i , v j ) edge (v_{i},v_{j}) edge(vi,vj)的重要性。

掩码策略

对于重要性相对较低的边缘/特征,我们可以通过自由的掩盖这些边缘/特征,但是我们应该确定这些掩盖的特征的数量大于保留的边缘/特征的数量,以防止 δ a u g \delta_{aug} δaug的减少。
A ~ = A ∗ ( M e ∨ S e ∧ D e ) , F ~ = F ∗ ( M f ∨ S f ∧ D f ) , \tilde{\boldsymbol{A}}=\boldsymbol{A}*(\boldsymbol{M}_e\vee\boldsymbol{S}_e\wedge\boldsymbol{D}_e),\quad\tilde{\boldsymbol{F}}=\boldsymbol{F}*(\boldsymbol{M}_f\vee\boldsymbol{S}_f\wedge\boldsymbol{D}_f), A~=A(MeSeDe),F~=F(MfSfDf),
其中,* 是handamard积。 M e , M f M_{e},M_{f} Me,Mf代表随机掩码矩阵,可以被任何掩码策略生成。 S e , S f S_{e},S_{f} Se,Sf是基于重要性的保留矩阵。它来保证高置信度的边/特诊应该被不保留。对于top ξ \xi ξ 重要的特征/边,我们分别设置 S e , S f S_{e},S_{f} Se,Sf 百分之50%的概率为1,0。 D e , D f D_{e},D_{f} De,Df展现出应该被删除的节点和特征,前者有50%的概率置为0,后者有50%的概率设置为1

谱分析的角度去解释:(谱增广)

这部分,尝试从谱的角度去分析infoNCE损失和增广距离。因为图和GCN天然与谱理论相关。我们使用邻接矩阵A来表示光谱

定理3.2 A 是邻接矩阵, A ′ , A ′ ′ 是增强矩阵。第 i 个特征值为 λ i ′ , λ i ′ ′ A是邻接矩阵,A',A'' 是增强矩阵。第i个特征值为\lambda_{i}',\lambda_{i}'' A是邻接矩阵,A,A′′是增强矩阵。第i个特征值为λi,λi′′

L N C E ≥ N log ⁡ N − ( N + 1 ) ∑ i θ i λ i ′ λ i ′ ′ , \mathcal{L}_\mathrm{NCE}\geq N\log N-(N+1)\sum_i\theta_i\lambda_i^{\prime}\lambda_i^{\prime\prime}, LNCENlogN(N+1)iθiλiλi′′,

定理3.3 2 δ a u g ≥ E p ( v i 1 , v i 2 ) ∥ f ( v i 1 ) − f ( v i 2 ) ∥ ≥ 2 − 2 N ∑ i θ i λ i ′ λ i ′ ′ . 2\delta_{aug}\geq\mathbb{E}_{p(v_i^1,v_i^2)}\|f(v_i^1)-f(v_i^2)\|\geq\sqrt{2-\frac2N\sum_i\theta_i\lambda_i^{\prime}\lambda_i^{\prime\prime}}. 2δaugEp(vi1,vi2)f(vi1)f(vi2)2N2iθiλiλi′′ .

定理3.3证明了,当 θ i \theta_{i} θi是正值,一个小的 L N C E \mathcal{L}_{{NCE}} LNCE需要一个大的特征值 ∣ λ i ∣ |\lambda_{i}| λi然而一个大的 δ a u g \delta_{aug} δaug需要一个小的 ∣ λ i ∣ |\lambda_i| λi。并且他只在 θ i \theta_{i} θi为负值时其作者用。对于最小化 L N C E \mathcal{L}_{NCE} LNCE的对比学习,随着训练的进行, θ s \theta s θs会增加。为了实现平衡,我们应该减少 ∣ λ i ∣ |\lambda_{i}| λi当infoNCE在减少的时候。
yang等人表示,不平滑的光谱的卷积操作会导致较大幅度的特征值的特征量相关,并导致对应幅度小的特征值的特征量垂直。所以对于足够的图卷积操作,如果 ∣ λ i ∣ > ∣ λ j ∣ |\lambda_i|>|\lambda_j| λi>λj,我们可以得到嵌入 f ( v ) f(v) f(v)满足 sim ⁡ ( f ( v ) , e i ) ≫ sim ⁡ ( f ( v ) , e j ) \operatorname{sim}(f(v),e_{i})\gg\operatorname{sim}(f(v),e_{j}) sim(f(v),ei)sim(f(v),ej)。这会导致所有的特征相似于 e i e_{i} ei。因此,不平滑的光谱可能导致相似的表征以及结果的过平滑。这表明,更高的 ∣ λ i ∣ \left|\lambda_{i}\right| λi导致 f ( v i 1 ) f(v_{\boldsymbol{i}}^{1}) f(vi1) f ( v i 2 ) f(v_{\boldsymbol{i}}^{2}) f(vi2)更相似。实际上,可以这样理解:减少 ∣ λ i ∣ |\lambda_{i}| λi实际上减少了正的 λ i \lambda_{i} λi,增加了负的 λ i \lambda_{i} λi。这意味着尝试在图谱领域去平滑特征值

即:平滑图光谱可以帮助对比学习
我们提出了一种简单的增强方法:随着训练的进行,参数 θ i s \theta_{i}s θis应该是增加的,因此我们可以使用 θ i \theta_{i} θi作为一个展示是否这个模型被正确训练的符号。随着 θ i \theta_{i} θi的逐渐增加,我们可以增加 λ \lambda λ。当 θ i \theta_{i} θi开始去减少,这可能是我们改变光谱的幅度太大了,我们应该撤回一步。
λ i = λ i + direction i ∗ λ i ∗ α , d i r e c t i o n i = { − 1 , c u r ( θ i ) − p r e ( θ i ) ≥ ϵ 1 , c u r ( θ i ) − p r e ( θ i ) ≤ − ϵ , 0 , o t h e r w i s e \begin{gathered} \lambda_{i} =\lambda_i+\text{direction}_i*\lambda_i*\alpha, \\ direction_i =\begin{cases}-1,&\mathrm{cur}(\theta_i)-\mathrm{pre}(\theta_i)\geq\epsilon\\1,&\mathrm{cur}(\theta_i)-\mathrm{pre}(\theta_i)\leq-\epsilon,\\0,&\mathrm{otherwise}&\end{cases} \end{gathered} λi=λi+directioniλiα,directioni= 1,1,0,cur(θi)pre(θi)ϵcur(θi)pre(θi)ϵ,otherwise
α \alpha α 是一个决定我们是否应该增加、减少多少 λ i \lambda_{i} λi的超参。 ϵ \epsilon ϵ 被使用去决定是否 θ i \theta_{i} θi
是增加,减少的。或者仅仅爆出稳定。 cur ⁡ ( θ i ) \operatorname{cur}(\theta_i) cur(θi)以及 p r e ( θ i ) \mathrm{pre}(\theta_{i}) pre(θi)代表现在和以前的 θ i \theta_{i} θi。通过这种方式,对比学习训练将会增加 θ \theta θ结果以一个低的 L N C E \mathcal{L}_{NCE} LNCE,我们通过 λ i \lambda_{i} λi取实现一个更好的增强距离。

结果

graph with information augmentation:-I
graph with spectrum augmentation -S
文章配图
文章配图

总结

写的很好,做的笔记不足以展现文章的优秀之处,推荐读原文。
文章通过理论和实践探明了为什么随着droprate的增加,对比学习会变好,并且随着droprate过增加(接近于1),对比学习会变差。并针对这一理论,提出了相应的两种增强方法–基于可信度的增强(节点,边等),基于光谱的增强

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值