【论文阅读】GRACE：Deep Graph Contrastive Representation Learning

最新推荐文章于 2024-11-28 07:30:26 发布

Cziun

最新推荐文章于 2024-11-28 07:30:26 发布

阅读量5.2k

点赞数 2

分类专栏：自监督学习对比学习图神经网络文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/cziun/article/details/119283157

版权

图神经网络同时被 3 个专栏收录

29 篇文章

订阅专栏

自监督学习

18 篇文章

订阅专栏

对比学习

16 篇文章

订阅专栏

本文提出GRACE，一种无监督图表示学习框架，通过对比学习优化节点嵌入。GRACE采用视图生成策略，包括边删除和特征掩蔽，以提供多样化的节点上下文。实验证明其在节点分类等任务上的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

代码链接：https://github.com/CRIPAC-DIG/GRACE

摘要

本文提出了一个利用节点级对比目标的无监督图表示学习框架。

具体来说，我们通过corruption生成两个视图，并通过最大化这两个视图中节点表示的一致性来学习节点表示。

为了为对比目标提供不同的节点上下文，我们提出了一种在结构和属性层次上生成视图的混合方案。

此外，我们从互信息和三元组损失（ triplet loss）两个角度提供了理论证明。

我们使用真实的数据集对transductive和inductive学习任务进行了实验。

1 引言

在这里插入图片描述
DGI缺点：

DGI使用 mean-pooling readout 函数，不能保证图嵌入可以从节点中提取有用的信息，因为它不足以从节点级嵌入中保存独特的特征。
DGI使用特征变换来生成损坏视图。然而，该方案在生成负节点样本时，在粗粒度级别考虑损坏节点特征。当特征矩阵稀疏时，只执行特征变换不足以为损坏图中的节点生成不同的邻域（即上下文），导致对比目标的学习困难。

在GRACE中，我们首先通过随机执行损坏来生成两个相关的视图。

然后，我们使用对比损失来训练模型，以最大限度地提高这两个视图中节点嵌入之间的一致性。在我们的工作中，我们共同考虑拓扑和节点属性级别的损坏，即去除边和掩蔽特征，为不同视图中的节点提供不同的上下文，从而促进对比目标的优化。

最后，我们提供了理论分析，揭示了从我们的对比目标与互信息和经典的三元组损失的联系。

2 GRACE

2.1 准备工作

$\mathcal{G}=(\mathcal{V},\mathcal{E})$ ， $\mathcal{V}=\{v_1,v_2,...,v_N\}$ ， $\mathcal{E} ⊆\mathcal{V}×\mathcal{V}$ 。

特征矩阵： $\pmb{X}∈\mathbb{R}^{N×F}$ ，其中 $\pmb{x}_i∈\mathbb{R}^F$ 。

邻接矩阵： $\pmb{A}∈\{0,1\}^{N×N}$ ，当 $(v_i,v_j)∈\mathcal{E}$ 时， $\pmb{A}_{ij}=1$ 。

在训练过程中，没有给 $\mathcal{G}$ 的节点类别信息。

我们的目标是学习一个GNN编码器 $f(\pmb{X},\pmb{A})∈\mathbb{R}^{N×F'}$ ，输入图的特征和结构，输出低维节点嵌入，即 $F^{'} < < F$ 。

将 $\pmb{H}=f(\pmb{X},\pmb{A})$ 作为节点学习到的表示，其中 $\pmb{h}_i$ 是节点 $v_i$ 的嵌入。这些表示可以用于下游任务中，如节点分类。

2.2 节点表示的对比学习

2.2.1 对比学习框架

在GRACE模型中，每次迭代生成两个视图，分别为 $G_1$ 和 $G_2$ ，生成的两个视图中的节点嵌入为 $\pmb{U}=f(\widetilde{\pmb{X}}_1,\widetilde{\pmb{A}}_1)$ 和 $\pmb{V}=f(\widetilde{\pmb{X}}_2,\widetilde{\pmb{A}}_2)$ ，其中 $\widetilde{\pmb{X}}_*$ 和 $\widetilde{\pmb{A}}_*$ 是这些视图的特征矩阵和邻接矩阵。

然后，我们使用一个对比目标（即一个鉴别器），来区分这两个不同视图中同一节点的嵌入和其他节点的嵌入。对于任何节点 $v_i$ ，它在一个视图中生成的嵌入 $\pmb{u}_i$ 被视为anchor，在另一个视图中生成的节点嵌入 $\pmb{v}_i$ 为正样本，在两个视图中除 $v_i$ 以外的节点的嵌入【假设有 $M$ 个节点，则负样本为 $(2 M - 2)$ 个】自然被视为负样本。定义 $\theta(\pmb{u},\pmb{v})=s(g(\pmb{u}),g(\pmb{v}))$ ，其中 $s$ 为余弦相似度， $g$ 是一个非线性映射——两层的MLP，以增强表达能力。

我们将每个正对 $(\pmb{u}_i,\pmb{v}_i)$ 的成对目标定义为：
在这里插入图片描述
其中， $1_{[k≠i]}∈\{0,1\}$ ，当 $k \neq = i$ 时，它等于 $1$ 。 $τ$ 是一个温度参数。

另一个视图的loss表示为 $\mathcal{l} (\pmb{v}_i,\pmb{u}_i)$ 。

最终要最大化的总体目标定义为所有正对的平均值：
在这里插入图片描述
学习算法总结如下：

2.2.2 视图生成

我们设计了两种图损坏的方法——去除拓扑的边和掩盖节点属性的特征。

（1）Removing edges (RE)

我们在原始图中随机地删除一部分边。

形式上，由于我们只删除现有的边，我们首先采样一个随机掩蔽矩阵 $\widetilde{\pmb{R}}∈\{0,1\}^{N×N}$ ，如果原始图 $\pmb{A}_{ij}=1$ ，则它的值来自伯努利分布 $\widetilde{\pmb{R}}_{ij}∼\mathcal{B}(1-p_r)$ ，否则 $\widetilde{\pmb{R}}_{ij}=0$ 。这里的 $p_r$ 是每条边被删除的概率。所得到的邻接矩阵可以计算为
在这里插入图片描述
其中， $x ◦y)_i=x_iy_i$ 是哈达玛积（Hadamard product）。

（2）Masking node features (MF)

除了去除边外，我们还在节点特征中用零随机屏蔽部分维度。

形式上，我们首先对随机向量 $\widetilde{\pmb{m}}∈\{0,1\}^F$ 进行采样，其中它的每个维度都独立地从概率为 $1-p_m$ 的伯努利分布中提取，即 $\widetilde{m}_i∼\mathcal{B}(1-p_m)$ 。然后，生成的节点特征 $\widetilde{\pmb{X}}$ 为：
在这里插入图片描述
其中， $[\cdot; \cdot]$ 是连接操作。

请注意，虽然我们提出的RE和MF方案在技术上与Dropout和DropEdge相似，但我们的GRACE模型和这两种方法的目的存在根本不同。Dropout是一种通用的技术，它在训练期间随机屏蔽神经元，以防止大规模模型的过拟合。在图域中，提出了DropEdge来防止GNN体系结构过深时的过拟合和缓解过平滑。然而，我们的GRACE框架随机应用RE和MF生成图拓扑和节点特征层次的对比学习图。此外，在GRACE中使用的GNN编码器是一个相当浅的模型，通常只包含两到三层。

在我们的实现中，我们共同利用这两种方法来生成视图。 $\widetilde{\mathcal{G}}_1$ 和 $\widetilde{\mathcal{G}}_2$ 的生成由两个超参数 $p_r$ 和 $p_m$ 控制。为了在这两个视图中提供不同的上下文，这两个视图的生成过程使用了两组不同的超参数 $p_{r,1}$ 、 $p_{m,1}$ 和 $p_{r,2}$ 、 $p_{m,2}$ 。实验表明，我们的模型在温和的条件下对 $p_r$ 和 $p_m$ 的选择不敏感，因此原始图没有过度损坏，例如， $p_r≤0.8$ 和 $p_m≤0.8$ 。