【论文阅读】Graph Contrastive Learning with Adaptive Augmentation

最新推荐文章于 2024-03-16 16:32:07 发布

什么时候上五花肉

最新推荐文章于 2024-03-16 16:32:07 发布

阅读量2.5k

点赞数 1

分类专栏：论文阅读文章标签：图对比学习自适应增强图神经网络节点分类无监督学习

本文链接：https://blog.csdn.net/lereno/article/details/124111117

版权

Graph Contrastive Learning with Adaptive Augmentation

用于图数据增强的图对比学习

文章目录

Graph Contrastive Learning with Adaptive Augmentation
用于图数据增强的图对比学习
摘要
1 引言
二、模型方法

摘要

近年来，对比学习（Contrastive Learning，CL）已成为一种成功的无监督图表示学习方法。大多数图的CL方法首先对输入图进行随机增强，以获得两个图的视图，并最大化两个视图表示的一致性。尽管图CL方法得到了繁荣的发展，但CL中的一个关键组成部分——图增强方案的设计，仍然很少被探索。我们认为，数据增强方案应该保留图的内在结构和属性，这将迫使模型学习对不重要的节点和边缘的扰动不敏感的表示。然而，现有的方法大多采用统一的数据增强方案，如统一降边和统一变换特征，导致性能次优。在本文中，我们提出了一种新的具有自适应增强的图对比表示学习方法，该方法包含了图的拓扑和语义方面的各种先验。具体来说，在拓扑层面上，我们设计了基于节点中心性度量的增强方案来突出重要的连接结构。在节点属性级别上，我们通过向不重要的节点特征添加更多的噪声来破坏节点特征，以强制模型识别底层的语义信息。我们在各种真实世界的数据集上进行了广泛的节点分类实验。实验结果表明，我们提出的方法始终优于现有的先进基线，甚至超过一些监督的方法，这验证了所提出的自适应增强对比框架的有效性。

1 引言

图表示学习主要用于分析图结构的数据。通常利用图神经网络（Graph Neural Networks，GNN）进行图表示学习，其目的是将节点转换为低维密集嵌入，以保留图的属性和结构特征。现有GNN模型多以监督的方式建立，需要大量的标记节点进行训练。对比学习是通过对比正样本对和负样本对，寻求最大化输入（即图像）与其表示（即图像嵌入）之间的相互信息（Mutual Information，MI）。
CL中的一个关键组成部分是图增强方法。现有的图增强方法有两个缺点：

在结构域或属性域中进行简单的数据增强不足以生成不同的邻域（上下文），特别是当节点特征稀疏时，导致难以优化对比目标。
以往的工作忽略了在进行数据扩充时节点和边缘影响的差异。eg.如果我们通过均匀地删除边来构造视图，去除一些有影响的边会降低嵌入质量。

对比目标学习到的表示对数据增强方案引起的破坏往往是不变的，因此数据增强策略应该自适应输入图，以反映其内在模式。该方案能够指导模型忽略在不重要的边缘上引入的噪声，从而学习输入图下的重要模式。 eg. 以除边方案为例，当随机去除边时，我们可以给不重要边的大概率，给重要边的小概率。

本文提出了一种新的无监督图表示学习的对比框架——具有自适应增强的图对比学习（Graph Contrastive learning with Adaptive augmentation，GCA），如下图所示：
在这里插入图片描述
图1：我们提出的深度图对比表示学习与自适应增强(GCA)模型。我们首先通过自适应图的结构和属性的随机增强来生成两个图的视图。然后，将这两个图输入一个共享的图神经网络(GNN)来学习表示。我们用一个对比目标来训练模型，它将一个节点的表示拉在一起，同时将节点表示远离两个视图中的其他节点表示。注意，我们将负样本定义为两个视图中的所有其他节点。因此，阴性样本来自两个来源，即视图内节点（紫色）和视图间节点（红色）。

在GCA中，我们首先通过自适应图的结构和属性的随机增强来生成两个图的视图。然后，我们使用对比损失来训练模型，以最大化这两个视图中节点嵌入之间的一致性。
具体地说，我们提出了一种在拓扑和节点属性级别上的联合自适应数据增强方案，即去除边缘和掩蔽特征，为不同视图中的节点提供不同的上下文，从而促进对比目标的优化。
此外，我们通过中心性度量来识别重要的边缘和特征维度。
然后，在拓扑层次上，我们通过给不重要的边自适应的去除概率，以突出重要的连接结构。在节点属性级别上，我们通过向不重要的特征维度添加更多的噪声来破坏属性，以强制模型识别底层的语义信息。

本文的核心贡献是两个方面：

提出了一个具有自适应增强的图对比表示学习方法。在自适应图结构和属性的拓扑结构和属性级别上共同执行数据增强，这鼓励了模型从这两个方面学习重要的特征。
在5个公共基准数据集下对节点分类进行了全面的实证研究，GCA始终优于现有的方法。

二、模型方法

1.准备工作

在这里插入图片描述

2.对比学习框架

模型寻求最大限度地提高不同视图之间的表示一致性。
①首先通过对输入执行随机图增强来生成两个图视图。
②采用了一个对比目标，强制每个节点在两个不同视图中的编码嵌入彼此一致，并可以与其他节点的嵌入区分开来。
方法：对于任意节点𝑣𝑖，其在一个视图𝒖𝑖中生成的嵌入都被视为锚点（命名标记），其在另一个视图𝒗𝑖中生成的嵌入形成正样本，而两个视图中的其他嵌入自然被视为负样本。

将每个正样本对(𝒖𝑖,𝒗𝑖)的目标函数定义为:
在这里插入图片描述
公式说明：给定一个正样本对，我们自然地将负样本定义为两个视图中的所有其他节点。因此，负样本来自两个来源，即视图间节点和视图内节点，分别对应于等式中分母中的第二项和第三项。由于两个视图是对称的，因此另一个视图的损失同样被定义为ℓ（𝒗𝑖，𝒖𝑖）。

总体目标函数定义为所有正样本对的平均值，即：
在这里插入图片描述
GCA训练算法如下：

算法说明：第1步，第2步对两个随机增广函数t ~ t和t’ ~ t进行抽样；通过对G执行破坏，生成两个图视图S1 = t(G)和G2 = t’(G)；利用编码器f获得G1的节点嵌入量U；利用编码器f获得g2的节点嵌入量V；利用Eq.(2)计算对比目标J；采用随机梯度上升方法更新参数，使J最大化

3.自适应图增强

想法：在GCA模型中，我们建议设计增强方案，以倾向于保持重要的结构和属性不变，同时干扰可能不重要的链接和特征。
具体做法：通过随机移除边和掩蔽节点来破坏输入图中的特征，以及去除或掩盖的概率对于不重要的边或特征较高，对于重要的边或特征较低。
目的：更强调重要的结构和属性，而不是随机损坏的视图，这将指导模型保持基本的拓扑和语义图模式。

3.1 拓扑级别的增强

对于拓扑级增强，我们考虑一种破坏输入图的直接方法，其中我们随机删除图中的边。形式上，我们从原始E中抽样一个修改的子集 $\widetilde{E}$ 的概率为：
在这里插入图片描述
公式说明：（𝑢，𝑣）∈E， $𝑝^{e}_{uv}$ 是去除边（𝑢，𝑣）的概率，反应边的重要性； $\widetilde{E}$ 作为生成的视图中的边集。

节点中心性是一种广泛使用的度量方法，它量化了图中节点的影响。基于边（𝑢，𝑣）中两个节点u，v的节点中心度定义为 $w^{e}_{uv}$ 。给定一个节点中心性度量方法 $\varphi _{c}$ （·） $： V$ → $R^{+}$ ，定义边中心度为两个相邻节点中心度的平均值 $w^{e}_{uv}=（\varphi _{c}(u) + \varphi_{c}(v)）/2$