图对比学习的模型增强技巧

最新推荐文章于 2025-04-09 13:42:49 发布

gao00013

最新推荐文章于 2025-04-09 13:42:49 发布

阅读量2k

点赞数 18

文章标签：学习

本文链接：https://blog.csdn.net/gao00013/article/details/134953477

版权

对比学习已成为视觉表征学习流行范式，图对比学习（GCL）也随之发展，但现有GCL方法存在图增强不够多样、视图编码器架构固定等问题。为此提出MA - GCL新范式，包含非对称、随机和洗牌三种模型增强技巧，实验表明其在多个图基准上达SOTA性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

对比学习(CL)可以提取不同对比视图之间的共享信息，已成为视觉表征学习的一种流行范式。受计算机视觉成功的启发，最近的工作将CL引入图建模，称为图对比学习(GCL)。然而，在图中生成对比视图比在图像中生成对比视图更具挑战性，因为我们对如何在不改变其标签的情况下显著增强图的先验知识很少。我们认为，GCL中典型的数据增强技术(例如，边缘下降)不能生成足够多样化的对比视图来过滤掉噪声。此外，以前的GCL方法使用了两个具有完全相同神经结构和绑定参数的视图编码器，这进一步损害了增强视图的多样性。为了解决这一限制，我们提出了一种名为模型增强GCL (MA-GCL)的新范式，该范式将专注于操纵视图编码器的架构，而不是干扰图输入。具体来说，我们提出了三种易于实现的GCL模型增强技巧，即不对称、随机和洗牌，它们分别有助于缓解高频噪声、丰富训练实例和带来更安全的增强。这三种技巧都与典型的数据增强兼容。实验结果表明，通过在简单的基础模型上应用这三种技巧，MA-GCL可以在节点分类基准上达到最先进的性能。广泛的研究也证实了我们的动机和每个技巧的有效性。

介绍

对比学习(CL)已经成为无监督视觉表征学习的一个很有前途的范例(Chen et al . 2020;他等人2020;Grill等人2020;van den Oord, Li, and Vinyals 2018;Hjelm et al 2019)。简而言之，典型的CL方法将通过数据增强生成相同样本的两个视图，然后最大化其编码表示之间的相似性。这样，CL可以提取不同视图之间共享的信息(Tian et al . 2020)，从而缓解只出现在单个视图中的任务无关噪声。最近，CL也被引入到图域，用于无监督图的表示学习，被称为图对比学习(GCL) (Y ou et al 2020;Zhu等2021;Hassani and Khasahmadi 2020;Zhu et al . 2020;邱等人2020;Suresh et al . 2021)。与使用真值标签训练的对应方法相比，GCL方法在各种图形基准测试中取得了具有竞争力的性能。

然而，在图形上生成数据增强比在图像上生成数据增强更具挑战性。对比学习理论(Tian et al . 2020)表明，良好的对比观点应该是多样化的，同时保持任务相关信息不变。在计算机视觉领域，我们对如何在不改变标签的情况下显著增强图像(例如，旋转或移位)有很强的先验知识。而在图学习领域，丢失一条边可能会破坏与下游任务相关的关键连接(例如，重要的化学键)。然而，大多数现有的图数据增强(GDA)技术(例如，节点或边下降)选择随机扰动图拓扑(V elickovic等人2019;你等人2020;Hassani and Khasahmadi 2020;Zhu et al . 2020;Qiu et al . 2020)作为对比观点。

我们认为，现有的GDA技术处于两难境地:保持足够的任务相关信息的扰动不能产生足够多样化的增强来过滤掉噪声。此外，以前的GCL方法使用两个具有完全相同神经结构和绑定参数的视图编码器，这进一步损害了增强视图的多样性。尽管一些最近的GCL方法以启发式(Zhu, Sun, and Koniusz 2021)或对抗性(Y ou et al 2021;Suresh等人(2021)的方式，他们仍然使用两个具有相同架构的视图编码器，并不能完全解决这个问题。此外，最近的一项工作(Xia et al . 2022)提出了扰动模型参数而不是图输入作为增强。请注意，关于模型参数的编码语义函数相当复杂。因此，从简单分布(如高斯分布)中提取的参数扰动可能会损害编码表示中的语义。我们将在实验中验证我们的动机。

在这项工作中，我们为GCL提出了一个新的范式来解决上述限制，称为MA-GCL(增强图对比学习模型)。我们将图神经网络(GNN)编码器解释为传播算子(即图滤波器)和变换算子(即权矩阵和非线性)的组合。请注意，以前的GCL方法采用固定且相同的gnn作为视图编码器，即对于编码不同的对比视图，传播和转换算子的数量及其排列是固定且相同的。在这项工作中，我们着重于扰动作为对比视图的视图编码器的神经结构，并提出了三种模型增强技巧:

(1)非对称策略:我们将使用两个具有不同数量传播算子的对比编码器。我们从理论上证明这种策略可以帮助减轻高频噪声。

(2)随机策略:我们将在每个epoch随机改变传播算子的数量。这背后的直觉是，改变传播深度可以丰富训练实例的多样性，从而有助于预测下游任务。

(3)洗牌策略:对两个视图编码器中的传播算子和变换算子的排列进行洗牌。其背后的直觉是，变换运算符的顺序不会改变输入图的语义，但会干扰作为更安全增强的编码表示。这三种技巧都很简单，并且与典型的数据增强兼容。

我们在六个图形基准上进行了实验，以证明MA-GCL的优越性。对于MAGCL的实现，我们将这三种技巧结合起来，并将它们应用于一个简单的基本模型，该模型可以被视为GRACE的简化版本(Zhu et al 2020)，其性能比GRACE和最新的最先进(SOTA)方法更差。实验结果表明，MA-GCL在6个基准中的5个基准上达到SOTA性能，相对于最佳基准的相对改进可达2.7%。大量的实验进一步表明，这三种策略都有助于整体的改进，其中非对称策略是最有效的一种。

我们的贡献如下:

(1)我们强调了大多数GCL方法的一个关键限制，即图增强不够多样化，无法过滤掉噪声。为了克服这一限制，我们提出了一种名为GCL模型增强的新范式，该范式将专注于干扰GNN编码器的架构，而不是图输入或模型参数。

(2)我们提出了三种有效的GCL模型增强技巧，即不对称、随机和洗牌，它们分别有助于缓解高频噪声、丰富训练实例和带来更安全的增强。这三种技巧都很简单，易于实现，并且与典型的数据增强兼容。

(3)实验结果表明，与现有的SOTA GCL方法相比，MA-GCL在一个简单的基础模型上应用这三种技巧，可以在6个图基准中的5个上达到SOTA性能。广泛的研究也证实了我们的动机和每个策略的有效性。

注释和初步说明

记法设 $G=(V,\varepsilon )$ 是一个图，其中 $V=\left \{ 1,..,|V| \right \}$ 为 $|V|$ 个顶点的集合， $\varepsilon \subseteq V \times V$ 为顶点间的 $|\varepsilon |$ 条边的集合。 $A \in \left \{ 0,1 \right \}^{|V| \times |V|}$ 表示G与自环的邻接矩阵，其中如果 $(v_i,v_j)\in \varepsilon$ 或 $i=j$ ，则 $A_{i,j}=1$ 。每个节点vi与一个特征向量 $x_i \in X \in R^{|V| \times d}$ 相关联，其中 $d$ 为特征维数。

图神经网络(GNNs) GNNs (Kipf and Welling 2016;V elickovic等2017;Zhou等人2020)将深度学习技术推广到节点编码的图中。具体来说，gnn将叠加多个传播层和转换层，然后将它们应用于原始特征x。这里我们将传播层和转换层的算子分别表示为g和h:

其中为节点嵌入，为图滤波矩阵，为线性变换的权矩阵，σ为非线性函数(如ReLU)。图滤波器F是基于邻接矩阵a的常数矩阵，W是可训练参数。g的输出与输入矩阵Z具有相同的形状，而h的输出是一个维表示矩阵。在这两个算子的帮助下，节点表示可以传播到它们的邻居，并通过线性和非线性变换映射到新的嵌入空间。

现在我们可以将gnn形式化为多个g和h算子的组合。例如,L-layer图卷积网络(GCN) (Kipf和威林2016)和L-layer国网公司(2019年吴等)可以写成

表示两家运营商的构成, $h_i$ 表示第i转换层之下,和 $g^{\left [ L \right ]}$ 表示g的L运营商组成。GCN图形过滤器和SGC通过规范邻接矩阵A计算:其中D表示度矩阵

继之前的许多gnn之后(Chen et al . 2020;Feng et al . 2020;Cui et al 2020)，我们定义图滤波器为，其中，I为单位矩阵。在我们的实验中，我们固定π = 0.5。

图对比学习(GCL) 给定一个有观察值的图数据集D, GCL的目的是以无监督的方式学习图或节点的表示(Y ou et al 2020;Zhu等2021;Hassani and Khasahmadi 2020;Zhu et al . 2020)。典型的协鑫模型包括三个关键模块(Y ou et al 2020;Zhu等2021;Suresh等人2021):图形数据增强(GDA)，视图编码器和对比损失。特别是，GDA(例如，节点或边下降)将对同一观测结果产生不同的增强;视图编码器(例如，GCN (Kipf和Welling 2016))将把增广图转换为视图表示;对比损失(例如，InfoNCE)将最大化不同视图之间的一致性，并且可以识别视图表示的不变部分。

形式上，对于每个观测s(例如，一个节点或一个图)，GDA将生成一对增强视图 $(a(s),a'(s))$ 。然后，GCL使用两个视图编码器函数 $(f,f')$ 将扩增对映射到相应的表示 $(z, z')=(f(a(s)),f'(a'(s))$ 。通常，GCL中的两个视图编码器具有完全相同的神经结构(Zhu et al2021;Hassani and Khasahmadi 2020;Zhu et al . 2020)，即f = f 0。最后，InfoNCE损失(Hjelm等人2019)将最小化，以在正对之间强制执行类似的表示:

其中分别是视图表示的正对和负对。如(Jing等)所示2021)，上述平方损失形式等价于归一化嵌入的典型余弦相似形式。

方法

为了解决现有GCL方法的局限性，我们将重点关注作为模型增强的视图编码器的神经架构。在本节中，我们将首先分别介绍三种策略及其好处。然后，我们将通过将这三种技巧合并到一个简单的基本模型中来说明整个算法。

非对称策略

一句话总结

采用共享参数但不同传播层数的编码器可以有效地缓解高频噪声。

主要思想

对比学习(CL)可以提取不同视图之间共享的信息(Tian et al . 2020)，从而过滤掉只出现在单个视图中的与任务无关的噪声。如图1所示，每个区域的尺度表示信息量，学习到的CL表示既包括任务相关的信息(D区域)，也包括任务无关的噪声(C区域)。从直观上看，这两个视图不应该太远(D信息有限)，也不应该太近(C噪声太多)。我们认为，在之前的GCL方法中，这两个视图过于接近:(1)典型的GDA技术(例如，边或节点下降)不能在保持任务相关信息不变的情况下产生足够多的增强;(2)两个视图编码器具有完全相同的神经结构和绑定参数，增强了视图之间的紧密性。

图1:关于非对称策略的动机说明。这里V1、V2和Y分别表示两个视图和下游任务的信息。该策略可以将两个视图相互推开，并且可以缓解GCL (C区)中与任务无关的噪声。

为了解决这个问题，我们建议使用具有共享参数但传播层数不同的非对称视图编码器。如图1(b)所示，我们可以通过不同传播层数将两个视图推开，共享参数可以保证两者之间的距离不会太远。这样可以减轻GCL (C区)的噪声。请注意h和g算子的数量是完全分离的。

好处为了实现，我们使用两个GNN编码器，它们具有相同数量的h算子但不同数量的g算子。现在我们将展示我们的实现可以帮助滤除高频噪声。为了简单起见，我们忽略了GNN编码器中的非线性变换来展示我们的好处。如果没有非线性函数，h算子中的权重矩阵就会坍缩成一个单一的权重矩阵W。然后我们有两个编码器的嵌入， $Z=F^LXW,Z'=F^{L'}XW$ ，其中 $L,L'$ 是两个视图编码器中的g算子的个数， $L<L'$ 。

假设图滤波器 $F$ 可以通过特征向量分解分解为，其中 $U$ 是特征向量的酉矩阵，是特征值的对角矩阵。 $F$ 的特征值越大，对应图拉普拉斯矩阵的特征值越小，这通常被认为是下游任务更重要的信息(Nt and Maehara 2019)。这里我们重点分析图信号，假设单热节点特征 $X=I$ ，那么两个视图的嵌入可以写成 $Z=U\Lambda^LU^TW,Z'=U\Lambda^{L'}U^TW$ ，其中。

对比损耗的目的是最小化正对嵌入之间的距离。根据这一思路，我们将重点放在方程(3)中的分子项上，并将损失改写为

其中tr(·)表示矩阵迹，而的条件是为了避免平凡的全零解。

定理1。式(4)中对比学习损失的最优W为

其中是使最小的最佳表示U的对应列。

定理1的详细证明见附录a。现在我们来看看哪个k最小。函数倾向于λ→0或λ→1。以我们实验中使用的图滤波器为例，F的特征值落在[0,1]范围内。如(Cui et al . 2020)所示，对于流行的图数据集，如Cora和Citeseer (Kipf和Welling 2016)，在实践中，F的特征值将落在[1,1,1]范围内。此外，我们还发现这些流行图数据的滤波器F有许多特征值接近于1，例如，在Cora中F的第100大特征值仍然大于0.998。因此，在实践中， $d_O$ 很可能是U的第一列。则视图编码器的表示为

可以很好地滤除高频噪声。

相反，如果我们采用 $L=L'$ 的相同视图编码器，则。因此，GDA的扰动不再是次要项，必须加以考虑。假设GDA对特征值的影响为,我们

因此，最优 $W^*$ 由滤波器 $F$ 和GDA的扰动决定，GDA可能会将高频噪声纳入学习表征中。

随机策略

一句话总结 在每个epoch随机改变视图编码器中传播算子的数量可以帮助丰富训练样本。

主要思想 在不失去一般性的情况下，我们基于SGC (Wu et al 2019)编码器说明我们的想法，即 $f(X)=h\circ g^{[L]}(X)$ 。在GCL的训练过程中，我们建议改变编码器f中的算子g的数量。具体来说，我们在每个epoch随机采样，而不是使用固定的L。这背后的直觉是，改变传播深度可以丰富训练实例的多样性，从而有助于预测下游任务。现在我们将更正式地介绍一下福利。

益处作为一个传播算子g为 $L$ 的GNN编码器， $f$ 将通过聚集节点v的L跳邻居来计算每个节点v的节点表示。换句话说， $f$ 相当于一个函数应用于扎根于节点 $v$ 的深度为 $L$ 的局部计算树(Nt and Maehara 2019)。

设为GCL的训练集。然后我们可以将S中的观测值从单个节点v替换为它的l跳计算树，并将训练集重写为。当g算子的数量在每个历元中随机选择为时，我们可以假设样本集变化为。因此，GCL的训练集被扩大了几倍。事实上，如果我们进一步考虑GDA(例如边掉落)，训练集将涉及计算树及其子树。在具有随机 $\hat{L}$ 的容量和具有固定L的容量之间可能存在更大的差距(例如，指数差距)。

洗牌的策略

一句话总结 变换传播算子和变换算子在每一个历元上的排列会带来更安全的增强。

主要思想 现有的GDA技术通常会随机扰乱图的拓扑结构，并冒着破坏与下游任务相关的关键连接(例如，丢失一个重要的化学键)的风险。为了解决这个问题，我们建议在两个视图编码器中使用操作符g和h的不同排列作为更安全的增强。形式上，如果视图编码器 $f$ 有 $L$ 个 $g$ 算子和 $N$ 个 $h$ 算子，则f可以写成

其中,，则我们将使用不同的对于另一个视点编码器 $f'$ , 。其背后的直觉是，变换传播和转换操作符的顺序不会改变输入图的语义，但会干扰作为更安全的增强的编码表示。现在我们将更多地讨论我们的策略和以前的GDA技术之间的关系。

如(Wang and Isola 2020)所示，对比学习包括对齐的重要步骤，其度量如下

其中 $p_{pos}(x)$ 是数据增强的分布， $\theta ,\theta'$ 表示编码器 $f,f'$ 中的可学习参数。

以前基于数据增强的GCL方法(Zhu et al . 2021;Y ou et al 2020)在Eq.(8)中可以解释为，。基于扰动模型参数的(Yang, Zhang, and Yang 2021;Xia et al . 2022)可以解释为，其中N为随机扰动噪声(例如，取自高斯分布)。请注意，关于模型参数的编码语义函数相当复杂。因此，从简单分布中提取的参数扰动也可能损害编码表示中的语义。在这个策略中，我们有。注意，如果我们忽略所有的非线性变换， $f$ 和 $f'$ 将是相同的。因此，f0可以利用非线性变换带来的扰动提供更安全的增广。

MA-GCL的实现

现在，我们将通过在一个简单的基本模型上应用这三种策略来展示我们的MA-GCL。基本模型采用随机边/特征下降，图滤波器 $F=\frac{1}{2}I+\frac{1}{2}D^{-\frac{1}{2}}AD^{-\frac{1}{2}}$ ,2层嵌入投影仪，InfoNCE loss进行学习。请注意，基本模型可以被视为GRACE的简化版本(Zhu et al . 2020)，只有视图内建模。伪代码如图1所示。在训练阶段结束后，我们将使用固定的编码器架构，并放弃嵌入投影仪进行评估:与GCN的架构类似，我们设置，其中是超参数。

实验

在本节中，我们对节点分类任务2进行了实验，以证明MA-GCL的有效性。我们首先介绍实验装置。然后，我们在图形基准测试中展示了MA-GCL与SOTA GCL方法的性能。我们还展示了每种策略的优点，并通过大量的实验验证了我们的动机。

实验装置

数据集 我们在六个节点分类的基准数据集上评估了我们的方法，这些数据集在以前的GCL方法中被广泛使用。具体来说，引文数据集包括Cora、CiteSeer和PubMed (Kipf and Welling 2016)，共同购买和合著者数据集包括Amazon-Photo、Amazon-Computers和Coauthor-CS (Shchur et al 2018)。

评估协议 根据GCA的协议和实现(Zhu et al . 2021)，我们将以无监督的方式通过不同的GCL方法学习节点表示，然后训练与后处理相同的线性分类器进行评估。我们将报告分类准确性作为评估指标。对于三个引用数据集，我们评估了公共分裂模型(Kipf and Welling 2016)。对于共同购买和共同作者的数据集，我们随机分割数据集，其中10%，10%，其余80%的节点分别作为训练集、验证集和测试集(Zhu et al . 2021;Zhang et al . 2021)。对于每个数据集，我们在不同的随机种子中报告5次运行的平均精度和标准差。请注意，随机种子也将改变共同购买和共同作者数据集的分割。

对于MA-GCL，我们将策略应用于前一节中描述的基本模型。我们在视图编码器f中对所有数据集使用两个h算子和多个g算子。我们对Cora和CiteSeer用K1 = K2 = 2来评估我们的模型，对其他数据集用K1 = K2 = 1来评估我们的模型。关于超参数设置的更多细节在附录c中提供。

我们考虑了许多节点表示学习基线，包括最近的SOTA GCL方法。无标签训练基线:DGI (V elickovic等)

好处 GRACE (Zhu et al 2020)、MVGRL (Hassani and Khasahmadi 2020)、BGRL (Thakoor et al 2021)、GCA (Zhu et al 2021)、COLES (Zhu, Sun, and Koniusz 2021)、CCASSG (Zhang et al 2021)、Ariel (Feng et al 2022a)和SimGRACE (Xia et al 2022)。使用标签训练的基线:GCN (Kipf和Welling 2016)， GA T (V elickovic等2017)和InfoGCL (Xu等2021)。注意SimGRACE是一种图分类方法，我们通过将GIN (Xu et al . 2018)编码器更改为GCN，将其变体用于节点分类任务。所有基线都使用相同的评估协议运行。

与基线方法的比较

我们在表1中报告了节点分类的性能。我们在每一列中粗体显示不带标签的最佳训练方法，并下划线显示最佳执行基线。我们可以看到，MA-GCL在6个图基准测试中的5个上可以达到SOTA性能，相对改进可以达到2.7%。考虑到Cora, Citeseer和PubMed上的公开分裂可能不具有代表性，我们还研究了另一个基准设置(Feng et al 2022a)，在这三个数据集上随机分裂，并与最具竞争力的基线进行比较。如表2所示，MA-GCL持续优于基线方法，这证明了MA-GCL的有效性。

消融实验

我们通过消融实验来证明每种模型增强策略的有效性:不对称、随机和洗牌。我们将完整模型(3个策略)与基本模型(0个策略)和6个精简模型(1或2个策略)进行比较。具有或不具有非对称策略的模型决定两个视图编码器是否具有相同数量的g算子;有或没有随机策略的模型决定了编码器架构在每个epoch是固定的还是随机的;有或没有洗牌策略的模型决定两个视图编码器是否具有不同的操作符排列。注意，非对称策略表明两个视图编码器的排列不可能完全相同。因此，对于具有非对称策略但没有洗牌策略的模型，我们将强制Ki = K0ifor i < n，结果如表3所示。

综上所述，若将消融模型与非对称/随机/洗牌策略进一步结合，其准确率平均可分别提高0.86/0.65/0.54%。因此，三种策略对协鑫集团的整体绩效均有正向影响，其中不对称策略对协鑫集团的整体绩效影响最大三者中最有效的一个。还请注意，我们的基本模型的性能弱于SOTA GCL基线，这验证了我们模型增强范式的优越性。

动机验证

现在，我们将进行实验来验证我们的动机:(1)单独使用典型的GDA技术(例如，边下降)无法产生足够多样化的增强，因此会将大量噪声(图1中的C区域)带入学习表征;(2)直接扰动模型参数可能会损害编码表示中的语义(图1中的D区)。

设置我们建议估算不同GCL方法在C区和D区的信息。根据InfoMin原理(Tian et al . 2020)，如果一种方法的面积D(即任务相关信息)较大，而面积C(即任务无关噪声)较小，则该方法效果较好。然而，很难单独直接估计C或D区域的信息。因此，我们使用MINE (Belghazi et al . 2018)来计算两个视图之间的互信息，作为面积C+D的估计。鉴于由CL训练的表示，我们将使用其在下游任务上的ac精度作为对d区域的估计。为了公平比较，我们研究了基于我们的骨干模型的五种方法:基本模型代表具有随机数据增强的典型GCL方法;基础模型+PA在基础模型上增加了参数扰动，这代表了参数增强(PA)的最新范式(Xia et al 2022);使用Base Model+A、MA-GCL w/o A和MA-GCL来证明我们的有效性。

结果如图2所示，我们的观察结果如下:(1)Base Model的互信息最高，但两个精度最差，这支持了我们的观点，即典型GCL方法中的视图彼此过于接近，带来了很大的噪声;(2) Base Model+PA具有较低的准确率和互信息，表明模型参数的扰动会显著损害编码表征中的语义;(3)通过对比Base Model与Base Model+A、MA-GCL w/o A与MA-GCL，我们可以看到，不对称策略可以有效地将两个视图相互推开，导致蓝色列显著减少，从而减少任务无关噪声。以上观察结果验证了我们的动机和策略设计。

图2:动机验证实验结果。

橙色列(图1中D区域的估计)表示不同方法的分类精度;蓝色列(图1中面积C+D的估计)表示两个视图之间的相互信息。橘黄色列高、蓝色列低的方法表明，在不相关噪声较少的情况下，可以编码更多的任务相关知识。

其他四个数据集在附录b中。

总结

在本文中，我们强调了以前的GCL方法的一个关键限制，即它们的对比视图过于接近，无法有效滤除噪声。然后，我们提出了一种新的范式，称为模型增强，它侧重于操纵GNN视图编码器的神经结构，而不是扰动图输入或模型参数。具体来说，我们提出了三种GCL模型增强技巧:不对称、随机和洗牌，它们分别有助于缓解高频噪声、丰富训练实例和带来更安全的增强。通过这三种技巧，两个对比视图之间可以保持适当的距离，即既不会太远(失去任务相关语义)也不会太近(引入不必要的噪声)。实验表明，MA-GCL通过将这三种技巧应用于简单的基础模型作为即插即用组件，可以实现SOTA性能。我们希望这一工作能够为GCL的研究提供一个新的方向，未来的工作可以考虑将模型增广的思想推广到具有异交性的图中。