d:\obsidian\pages\Perfect Alignment May be Poisonous to Graph Contrastive Learning.md

最新推荐文章于 2024-10-10 10:04:51 发布

mumukehao

最新推荐文章于 2024-10-10 10:04:51 发布

阅读量626

点赞数 15

分类专栏：对比学习文章标签：图对比学习

本文链接：https://blog.csdn.net/chairuilin/article/details/142641695

版权

对比学习专栏收录该内容

24 篇文章 0 订阅

订阅专栏

ICML24
推荐指数： #paper/⭐⭐⭐
领域：图增强
人大高瓴实验室，刘勇的学生
刘勇主页：About me - Yong Liu (liuyonggsai.github.io)
刘勇的学校主页：刘勇-教师系统 (ruc.edu.cn) （好强啊，哈哈，好好的老师)
文章理论写的特别好！真的是为了实验服务的那种，有点拍案叫绝

理论背景

贡献：

对于对比增强而言，当使用更强的增强时，对比学习受益于类间距离而不是类内距离。更好的对其可能无济于事，因为它与更强的增强所冲突
1. 建立了下游任务，对比学习损失，alignment performance之间的关系，展示了为什么更强的增强有益。我们分析了理论的结果以及又从光谱的角度去解释
1. 基于提出的理论结果，我们提出了两种简单但是有效的算法。我们展示了这些算法的延伸对于常见的对比学习算法的帮助
增强的部分介绍
数据增强被用来去创建新的图 $\mathcal{G}^1,\mathcal{G}^{2}\in \mathbb{G}^{aug}$ . $v_{i}^0$ 代表原始节点， $v_{i}^+$ 代表增强节点 $v_{i}^1,v_{i}^2$ 。对于负样本 $v_{i}^1$ 来说，他的负样本是 $v_{i}^{-} \in \{v_{j}^{+}|j \neq i\}$ .节点 $v_{i}$ 的嵌入是： $f(v_i)||=1.$
对比增强如何影响下游任务
对于增强而言，应该有的是，对于同一个节点，他们应该有相似的嵌入： $f(v_{i}^{1})\approx f(v_{i}^{2})$ 。但是，wang等人指出，完美的匹配和统一并不一定会导致一个好的性能。举例子：假设 ${f(v_i^0)\}_{i=1}^N$ 是均匀分布， $f(v_{\boldsymbol{i}}^{0})=f(v_{\boldsymbol{i}}^{+})$ 。那么，就可能会学习一个平凡接，将所有的特征映射到相同的嵌入，随机的映射这些特征。
wang等人认为完美对齐和组内增强重叠将是最好的解决方案。完美对其– $f(v_{\boldsymbol{i}}^{0}) = f(v^{+}) = f(v_{\boldsymbol{i}}^{0}).$ ，这会使得类内节点更接近，增强导致的扰乱会更多的出现在类内节点，所以完美的增强和分配是类内聚集
但是，saunshi等人指出，即使在强增强的情况下，增强重叠也是很罕见的。强增强会使得对其变得特别困难，这与完美对其相冲突。
10.那么，到底是类内还是类间对于对比学习发挥的作用大呢？

假设2.1：对于正样本和原样本，我们应该有： $p(y|v_{\boldsymbol{i}}^{0})=p(y|v_{\boldsymbol{i}}^{+}).$

其中，y是label。即：对于正负样本来说，在分类时应该有同样的标签。
这一假设被广泛采用：如果扩展仍然保留基本结构并保留大部分特征信息，类别标签不太可能会改变。否则，如果增强破坏了基本标签信息，模型就会学习到trival solution

假设2.2 假设2.1成立，随着增广的增强，增广距离（正样本和原样本)的方差就会增加。 $\delta_{\boldsymbol{aug}}^2 = \mathbb{E}_{p(v_i^0,v_i^+)}||f(v_i^0) - f(v_i^+)||^2$ 。我们可得: $\delta_{\boldsymbol{aug}}\propto\mathrm{~GED}(\mathcal{G}^0,\mathcal{G}^+).\mathrm{~GED}(\mathcal{G}^0,\mathcal{G}^+)$ 。GED表示原图与增广图的编辑距离

这是一个很自然的假设，差异越大，产出的差异就越大。这意味着，较小的增广(aug)就会对其的好。更强的增广，对其会变差

定义2.3 我们定义类中心为: $\mu_{y}= \mathbb{E}_{p(v,y)}\left[f(v_y)\right]$ 。（标签为y的样本的中心)。我们表示类内方差和类间方差为：

$\begin{aligned}&\delta_{y^+}^2=\mathbb{E}_{p(y,i,j)}||f(v_{y,i}^0)-f(v_{y,j}^0)||^2,\\&\delta_{y^-}^2=\mathbb{E}_{p(y,y-,i,j)}||f(v_{y,i}^0)-f(v_{y^-,j}^0)||^2,\end{aligned}$
(标签为y的类的距离即上式1，标签不为y与标签为y的即为类间方差)
由于前人证明：原节点的类嵌入中心和增广节点的嵌入中心不同，因此，计算类中心的时候，应该将增广图的节点包含在之内更好

定理2.4 加入2.1假设成立，我们就有： $\mathbb{E}_{p(v_y^0|y)}||f(v_y^0)-\mu_y||\leq\delta_{y^+}+\frac23\delta_{aug},\\\mathbb{E}_{p(v_y^0|y)}||f(v_y^0)-\mu_{y^-}||\leq\delta_{y^-}+\frac23\delta_{aug},$

解释：左式子，不等式左侧表示正样本与类中心的距离和。右侧则为负样本中心距离。
通过2.2和2.4,我们可以得到：增广距离： $\delta_{aug}$ 会随着增广的增强而变大。这就意味着，正样本中心和负样本中心和增广距离 $\delta_{aug}$ 正相关。因此，强增广会同时作用于类内节点和类间节点：帮助类间节点分离，阻止类内节点聚集。

Figure 1

文章配图
如图，可以看到：随着增广的增强，正中心距离并没有减少。下游任务随着负样本中心的增强而增强。所以，更好的性能和类间分离有关，类内节点不一定会聚集。

通过对于InfoNCE进行分析：

$\mathcal{L}_{\mathrm{NCE}}=\mathbb{E}_{p(v_i^1,v_i^2)}\mathbb{E}_{p(v_i^-)}\left[-\log\frac{\exp(f(v_i^1)^Tf(v_i^2))}{\sum\exp(f(v_i^1)^Tf(v_i^-))}\right]$
随着增广的幅度更大，会导致正对的不相似。因此GCL将更多的关注与分母的最小化。这就意味着最小化分母实际上是为了有效的分离类间节点。相比之下，增强堆叠仍然难以存在。类内负节点的存在进一步削弱了类内聚集。
从图一我们还可以观测到，随着删除太多的变。特征时，下游性能急剧下降，并且正中心副中心相似性都增加。这是因为由于丢弃了太多的信息，使得基本的假设 $p(y|v_{\boldsymbol{i}}^0)=p(y|v_{\boldsymbol{i}}^+)$ 不存在，导致了平凡解的被学习到。

增广距离，对比损失和下游性能的关系

我们用平均交叉熵CE来代表下游的性能
平均CEloss：
$\hat{\mathcal{L}}_{\mathrm{CE~}}=\mathrm{~}\mathbb{E}_{p(v^0,y)}\left\lfloor-\log\frac{\exp(f(v^0)^T\mu_y)}{\sum_{j=1}^K\exp(f(v^0)^T\mu_j)}\right\rfloor$
$\mu_j=\mathbb{E}_{p(v|y=j)}\left[f(v)\right]$
我们可以得到如下推导:

定义2.6

$\hat{\mathcal{L}}_{\mathrm{CE}}\geq\mathcal{L}_{\mathrm{NCE}}-3\delta_{aug}^2-2\delta_{aug}-\log\frac MK-\frac12\operatorname{Var}(f(v^+)|y)\\-\sqrt{\operatorname{Var}(f(v^0)|y)}-e\operatorname{Var}(\mu_y)-O(M^{-\frac12}),$
我们可以发现，当我们执行更强的增广是，下限会变得小，较小的下限不一定会导致更强的性能，但是它会导致有潜在的更优的解决方案
举个例子， $\hat{\mathcal{L}}_{\mathrm{CE}}\geq0.7$ 和 ${{\mathcal{L}_{\mathrm{CE}}}}>0.3$ ，我们会选择右侧的，因为右侧的解更多，能有更优的解。
定义2.6也表明：NCE也可能不能导致下游任务的优秀性能。这也可以得到：更强的增广距离会让下限更小，增强概括性，提升下游性能。还标明更好的概括性与更高的正中心距离相关，这与上面的实验一直。
弱增广会导致更好的对齐，但也会导致较弱的概括。强变得更强时，尽管无法实现完美对齐，但它会促进更好的概括，并可能改善下游性能。当增广太强时，最大限度地减少InfoNSO损失变得具有挑战性

我们的增强方法

定理3.1：CEwith MI

$\hat{\mathcal{L}}_{\mathrm{CE}}\geq\log(K)-I(v^1,v^2)-g(\delta_{aug})-O(M^{-\frac12}),$
$I(v^1,v^2)$ 表示两个节点的互信息。 $g(\delta_{aug})$ 随着 $\delta_{aug}$ 的增加而增加。
上十字标明最好的增广是最大化互信息以及增广距离
最好的增强应该是最小化： $I(v^1,y)=I(v^2,y)=I(v^{0},y)$ 但预训练时下游任务是未知的，所以这实际上是不可能实现的。我们的理论表明，增广应该是强增广，同时保留尽可能多的信息，最好的增强应该是满足InfoMin的增强，这意味着增强消除所有无用信息并保留下游相关信息
为了验证我们的理论，我们提出了一个简单并且有效的方法：识别重要的节点特征以及边，让他们在增广中不改变。对于不重要的信息，我们执行增广

识别重要的部分 --通过梯度计算

$\begin{aligned}&\alpha_{v,p}=\frac{\partial\mathcal{L}_{\mathrm{NCE}}}{\partial x_{v,p}},\quad\alpha_p=\mathrm{ReLU}\left(\frac1{|V^{\prime}|}\sum_v\alpha_{v,p}\right),\\&\alpha_{v}=\mathrm{ReLU}\left(\frac1{|P^{\prime}|}\sum_p\alpha_{v,p}\right),\quad\alpha_{e_{i,j}}=\left(\alpha_{v_i}+\alpha_{v_j}\right)/2,\end{aligned}$
$\alpha_{v,p}$ 是节点v的第 $p^{th}$ 个重要的特征， $\alpha_{p}$ 是 $p^{th}$ 个特征的重要性。 $\alpha_{\boldsymbol{v}}$ 是节点v的重要性， $\alpha_{e_{i,j}}$ 表示 $edge (v_{i},v_{j})$ 的重要性。

掩码策略

对于重要性相对较低的边缘/特征，我们可以通过自由的掩盖这些边缘/特征,但是我们应该确定这些掩盖的特征的数量大于保留的边缘/特征的数量，以防止 $\delta_{aug}$ 的减少。
$\tilde{\boldsymbol{A}}=\boldsymbol{A}*(\boldsymbol{M}_e\vee\boldsymbol{S}_e\wedge\boldsymbol{D}_e),\quad\tilde{\boldsymbol{F}}=\boldsymbol{F}*(\boldsymbol{M}_f\vee\boldsymbol{S}_f\wedge\boldsymbol{D}_f),$
其中,* 是handamard积。 $M_{e},M_{f}$ 代表随机掩码矩阵，可以被任何掩码策略生成。 $S_{e},S_{f}$ 是基于重要性的保留矩阵。它来保证高置信度的边/特诊应该被不保留。对于top $\xi$ 重要的特征/边，我们分别设置 $S_{e},S_{f}$ 百分之50%的概率为1,0。 $D_{e},D_{f}$ 展现出应该被删除的节点和特征，前者有50%的概率置为0，后者有50%的概率设置为1

谱分析的角度去解释：(谱增广)

这部分，尝试从谱的角度去分析infoNCE损失和增广距离。因为图和GCN天然与谱理论相关。我们使用邻接矩阵A来表示光谱

定理3.2 $是增强矩阵。第i个特征值为\lambda_{i}',\lambda_{i}''$

$\mathcal{L}_\mathrm{NCE}\geq N\log N-(N+1)\sum_i\theta_i\lambda_i^{\prime}\lambda_i^{\prime\prime},$

定理3.3 $2\delta_{aug}\geq\mathbb{E}_{p(v_i^1,v_i^2)}\|f(v_i^1)-f(v_i^2)\|\geq\sqrt{2-\frac2N\sum_i\theta_i\lambda_i^{\prime}\lambda_i^{\prime\prime}}.$

定理3.3证明了，当 $\theta_{i}$ 是正值，一个小的 $\mathcal{L}_{{NCE}}$ 需要一个大的特征值 $|\lambda_{i}|$ 然而一个大的 $\delta_{aug}$ 需要一个小的 $|\lambda_i|$ 。并且他只在 $\theta_{i}$ 为负值时其作者用。对于最小化 $\mathcal{L}_{NCE}$ 的对比学习，随着训练的进行， $\theta s$ 会增加。为了实现平衡，我们应该减少 $|\lambda_{i}|$ 当infoNCE在减少的时候。
yang等人表示，不平滑的光谱的卷积操作会导致较大幅度的特征值的特征量相关，并导致对应幅度小的特征值的特征量垂直。所以对于足够的图卷积操作，如果 $|\lambda_i|>|\lambda_j|$ ，我们可以得到嵌入 $f (v)$ 满足 $\operatorname{sim}(f(v),e_{i})\gg\operatorname{sim}(f(v),e_{j})$ 。这会导致所有的特征相似于 $e_{i}$ 。因此，不平滑的光谱可能导致相似的表征以及结果的过平滑。这表明，更高的 $\left|\lambda_{i}\right|$ 导致 $f(v_{\boldsymbol{i}}^{1})$ 和 $f(v_{\boldsymbol{i}}^{2})$ 更相似。实际上，可以这样理解：减少 $|\lambda_{i}|$ 实际上减少了正的 $\lambda_{i}$ ，增加了负的 $\lambda_{i}$ 。这意味着尝试在图谱领域去平滑特征值

即：平滑图光谱可以帮助对比学习
我们提出了一种简单的增强方法：随着训练的进行，参数 $\theta_{i}s$ 应该是增加的，因此我们可以使用 $\theta_{i}$ 作为一个展示是否这个模型被正确训练的符号。随着 $\theta_{i}$ 的逐渐增加，我们可以增加 $\lambda$ 。当 $\theta_{i}$ 开始去减少，这可能是我们改变光谱的幅度太大了，我们应该撤回一步。
$\begin{gathered} \lambda_{i} =\lambda_i+\text{direction}_i*\lambda_i*\alpha, \\ direction_i =\begin{cases}-1,&\mathrm{cur}(\theta_i)-\mathrm{pre}(\theta_i)\geq\epsilon\\1,&\mathrm{cur}(\theta_i)-\mathrm{pre}(\theta_i)\leq-\epsilon,\\0,&\mathrm{otherwise}&\end{cases} \end{gathered}$
$\alpha$ 是一个决定我们是否应该增加、减少多少 $\lambda_{i}$ 的超参。 $\epsilon$ 被使用去决定是否 $\theta_{i}$
是增加，减少的。或者仅仅爆出稳定。 $\operatorname{cur}(\theta_i)$ 以及 $\mathrm{pre}(\theta_{i})$ 代表现在和以前的 $\theta_{i}$ 。通过这种方式，对比学习训练将会增加 $\theta$ 结果以一个低的 $\mathcal{L}_{NCE}$ ，我们通过 $\lambda_{i}$ 取实现一个更好的增强距离。