【论文阅读】IJCAI 2021 MERIT

最新推荐文章于 2024-01-10 19:07:50 发布

Cziun

最新推荐文章于 2024-01-10 19:07:50 发布

阅读量1.3k

点赞数 1

分类专栏：自监督学习图神经网络对比学习文章标签：神经网络深度学习机器学习

本文链接：https://blog.csdn.net/cziun/article/details/119698218

版权

图神经网络同时被 3 个专栏收录

29 篇文章

订阅专栏

自监督学习

18 篇文章

订阅专栏

对比学习

16 篇文章

订阅专栏

Multi-Scale Contrastive Siamese Networks for Self-Supervised Graph Representation Learning

摘要
1 引言
2 相关工作
3 方法
4 实验

摘要

受图对比学习和Siamese networks(孪生神经网络)在视觉表示学习中成功的启发，本文提出了一种新的自监督方法，通过多尺度(multi-scale)对比学习增强Siamese自蒸馏来学习节点表示。

具体来说，我们首先根据局部和全局的角度从输入图中生成两个增强视图。然后，我们采用了两个目标，称为跨视图和跨网络对比度，以最大限度地提高不同视图和网络之间的节点表示的一致性。

1 引言

2 相关工作

Siamese network是一种神经架构，它包含两个或多个相同的结构（例如，图1中的在线和目标编码器），以进行多类预测或实体比较。传统上，它被用于监督任务，如签名验证和人脸匹配。最近，该架构被用于自监督学习视觉表示，并在不使用负样本的情况下取得了显著的改进。为了充分了解BYOL的潜在机制，验证了在线网络中额外的预测器和目标网络中的停止梯度机制是在没有负样本帮助的情况下防止崩溃的关键。

3 方法

在这里插入图片描述

问题定义

$\mathcal{G}=(X,A)$ ，特征矩阵为： $X∈\mathbb{R}^{N×D}$ ，邻接矩阵： $A∈\mathbb{R}^{N×N}$ 。

目标：在没有标签信息的情况下，学习一个编码器 $g_\theta:\mathbb{R}^{N×D}×\mathbb{R}^{N×N}→\mathbb{R}^{N×D'}$ 。其中 $D^{'} < < D$ 。所得到的表示 $H=g_\theta(X,A)=\{h_1,h_2,...,h_N\}$ 可以直接用于下游任务，如节点分类。

整体框架

我们提出了一种新的算法——MERIT，利用bootstrapping和多尺度图对比学习来学习节点表示。

如图1所示，我们的模型主要由三个部分组成：图增强，跨网络对比学习，和跨视图对比学习。

为了训练我们的模型，我们首先生成两个增强的图视图，表示为 $\tilde{\mathcal{G}}_1$ 和 $\tilde{\mathcal{G}}_2$ 。之后，通过在线网络和目标网络对这两个视图进行处理，我们在潜在空间的多个尺度上构建了不同的图对比路径，如图1的最右部分所示。

3.1 图增强

为了便于在图上的对比学习，我们提出了四种增强方法，如下所示，以增强图的拓扑和属性信息。

（1）Graph Diffusion (GD)

我们通过扩散变换一个图，以生成一个全等的视图。这种方法的有效性可能归因于由扩散视图提供的额外的全局信息。该过程的表述如下：
在这里插入图片描述
其中， $θ$ 是控制局部和全局信号分布的参数， $T∈\mathbb{R}^{N×N}$ 是转换邻接矩阵的变换矩阵。本文采用个性化PageRank(PPR)核来促进图扩散。形式上，给定邻接矩阵 $A$ ，单位矩阵 $I$ 和度矩阵 $D$ ，方程（1）可以重新表述为：
在这里插入图片描述
其中， $α$ 是随机游走传送概率的可调参数。

（2）Edge Modification (EM)

我们不仅在邻接矩阵中删除边，而且添加相同数量的删除边。这样，我们可以维护原始图的属性，同时使用附加边使增强视图复杂化。

具体来说，给定邻接矩阵 $A$ 和修改比例 $P$ ，我们在原始图中随机删除现有边的 $P / 2$ 部分，然后在图中随机添加相同部分的新边。

我们的边缘丢弃和添加过程都遵循一个独立同分布的均匀分布。

（3）Subsampling (SS)

与图像裁剪相似，我们在邻接矩阵中随机选择一个节点索引作为分割点，然后使用它裁剪原始图，以创建一个固定大小的子图作为增广图视图。SS的一个优点是使批处理能够处理大小可能超过GPU内存容量的大图形。

（4）Node Feature Masking (NFM)

给定特征矩阵 $X$ 和增强比例 $P$ ，我们随机选择 $X$ 中节点特征维数的 $P$ 部分，然后用零掩码。

本文将SS、EM和NFM应用于第一个视图，并将SS、NFM、GD应用于第二个视图。通过这样做，我们的模型可以通过对比学习同时编码局部和全局信息。通过这样做，我们的模型可以通过对比学习同时编码局部和全局信息。

3.2 跨网络对比学习

在这里插入图片描述
首先，将在线网络中一个视图的节点表示视为锚，然后最大化和目标网络中另一个视图对应的表示之间的余弦相似度，形成基本的bootstrapping对比。

这种对比学习过程如图2(a)所示，其中 $H^1=q_\theta(Z^1)$ 和 $\hat{Z}^2$ 表示来自两个不同网络的 $\tilde{\mathcal{G}}_1$ 和 $\tilde{\mathcal{G}}_2$ 的表示。具体来说，我们使用 $Z^1=p_\theta(g_\theta(\tilde{X}_1,\tilde{A}_1))$ 和 $\hat{Z}^2=p_\zeta(g_\zeta(\tilde{X}_2,\tilde{A}_2))$ 来表示在线编码器和目标编码器中视图1和视图2输出的节点嵌入。两个 $v_1$ 节点之间的红色虚线表示基于 $v_1$ 构建的正对 $(h_{v_1}^1,\hat{z}_{v_1}^2)^+$ 。

背后的原理是，拉近两个网络的不同视图中同一节点的表示，以从历史观察中提取知识，并稳定在线编码器的训练。为了便于实现这一点，我们的目标网络在训练期间并没有直接接收到梯度。相反，我们利用动量更新机制来更新其参数(和BGRL的指数移动平均数一样)：
在这里插入图片描述
其中， $m$ 、 $\zeta$ 、 $\theta$ 分别是动量、目标网络参数和在线网络参数。

为了进一步探索 $H^1$ 和 $\hat{Z}^2$ 中节点表示之间丰富的对比关系，我们构建了额外的负样本来规范化基本的bootstrapping损失，即图2(a)中红色锚节点和蓝色节点之间的蓝色虚线，即 $(h_{v_1}^1,\hat{z}_{v_j}^2)^-$ ，我们的目标是将它们相互推远。因此，上述过程可以采用以下损失函数：
在这里插入图片描述
其中， $\mathcal{L}^1_{cn}$ 和 $\mathcal{L}^2_{cn}$ 是两个对称的损失，它们代表了不同视图上的多尺度跨网络对比性。此外， $h_{v_i}^1∈H^1$ ， $h_{v_i}^2∈H^2$ ， $\hat{z}_{v_i}^1∈\hat{Z}^1$ ， $\hat{z}_{v_i}^2∈\hat{Z}^2$ ， $s i m (\cdot)$ 表示余弦相似度。