【论文阅读】AD-GCL：Adversarial Graph Augmentation to Improve Graph Contrastive Learning

最新推荐文章于 2022-07-03 10:14:36 发布

Cziun

最新推荐文章于 2022-07-03 10:14:36 发布

阅读量2.3k

点赞数 4

分类专栏：图神经网络自监督学习对比学习文章标签：图神经网络对抗性学习图对比学习信息瓶颈自监督训练

本文链接：https://blog.csdn.net/cziun/article/details/119654961

版权

图神经网络同时被 3 个专栏收录

29 篇文章 21 订阅

订阅专栏

自监督学习

18 篇文章 15 订阅

订阅专栏

对比学习

16 篇文章 9 订阅

订阅专栏

摘要

提出了对抗性图对比学习——AD-GCL，它通过优化GCL中使用的对抗性图增强策略，使GNN在训练过程中避免捕获冗余(图特征)信息。

1 引言

InfoMax原则可能会有风险，因为它可能会推动编码器捕获与下游任务无关的冗余信息。与InfoMax不同，information bottleneck(IB)要求编码器捕获下游任务的最小的足够信息。具体来说，IB最小化来自原始数据的信息，同时最大化与下游任务相关的信息。随着冗余信息被移除，IB学习到的编码器往往更鲁棒和可转移。

当有关下游任务的知识不可用时，如何训练可能删除冗余信息的GNN？本文提出了一个方法，将GCL与对抗性训练相匹配，称为AD-GCL。AD-GCL由两个组成部分组成：

一个GNN编码器。它采用InfoMax来最大化原始图与其增广图的表示之间的互信息。
一个基于GNN的增强器。其旨在优化增强策略，以尽可能减少原始图中的冗余信息。

AD-GCL本质上允许编码器捕获最小的足够信息来区分数据集中的图。结果表明，在增强器的搜索空间上有一定的正则化，AD-GCL可以产生下游任务相关信息的下界保证，同时保持原始图中冗余信息的上界保证，匹配IB原理的目标。

我们进一步给出了AD-GCL的一个实例化：GNN增强器使用了一个任务不可知的增强策略，并且将学习一个与输入图相关的非均匀边丢弃概率来执行图的增强。

2 准备工作

属性图 $G = (V, E)$ ，其中 $V$ 是节点集， $E$ 是边集。 $G$ 可能具有维度为 $F$ 的节点属性 $\{X_v∈\mathbb{R}^F|v∈V\}$ 和边属性 $\{X_e∈\mathbb{R}^F|e∈E\}$ 。我们将节点 $v$ 的邻居集表示为 $\mathcal{N}_v$ 。

2.1 学习图表示

给定空间 $\mathcal{G}$ 中的一组图 $G_i,i=1,2,...,n$ ，目标是学习一个编码器 $f:\mathcal{G}→\mathbb{R}^d$ ，其中 $f(G_i)$ 可以进一步用于一些下游任务。我们还假设所有的 $G_i$ 都是从定义在 $\mathcal{G}$ 上的未知分布 $\mathbb{P}_\mathcal{G}$ 中独立同分布地采样的。另一个模型 $q:\mathbb{R}^d→\mathcal{Y}$ 将学习基于 $q(f(G_i))$ 的预测 $Y_i$ 。我们假设 $G_i,Y_i)$ 是从一个分布 $\mathbb{P}_{\mathcal{G}×\mathcal{Y}}=\mathbb{P}_{\mathcal{Y}|\mathcal{G}}\mathbb{P}_{\mathcal{G}}$ 中独立同分布地采样的，其中 $\mathbb{P}_{\mathcal{Y}|\mathcal{G}}$ 是在给定图的下游任务中图标签的条件分布。

2.2 GNNs

对于图 $G = (V, E)$ ，每个节点 $v \in V$ 将与初始化为 $h_v^{(0)}=X_v$ 的节点表示 $h_v$ 配对。这些表示形式将通过GNN更新。在第 $k$ 次迭代中，每个 $h_v^{(k-1)}$ 使用 $v$ 的邻域信息进行更新：
在这里插入图片描述
其中， $A G G R E G A T E (\cdot)$ 是一个可训练函数，它将节点表示集和边缘属性 $X_{uv}$ 映射到一个聚合向量。 $U P D A T E (\cdot)$ 是另一个可训练函数，它将 $v$ 当前的表示和聚合向量映射到 $v$ 的更新表示。在（1）迭代 $K$ 次后，图表示通过pool最终节点表示集得到：
在这里插入图片描述

2.3 互信息最大化

GCL的目标如下：
在这里插入图片描述

3 对抗性图对比学习

3.1 AD-GCL的理论动机及制定

图信息瓶颈(GIB)的目标如下：
在这里插入图片描述
其中， $(G,Y)\sim\mathbb{P}_{\mathcal{G}×\mathcal{Y}}$ ， $\beta$ 是一个正常数。比较（3）与（4），我们可以观察到InfoMax和GIB的不同：InfoMax要求最大化原始图中的信息；而GIB要求最小化原始图中的信息，但同时最大化与下游任务相关的信息。

不幸的是，GIB需要来自下游任务中的类标签 $Y$ 的知识，因此不适用于GNN的自监督训练。然后，问题就是如何以一种自监督的方式学习鲁棒的和可转移的GNN。

为了解决这个问题，我们将开发一种GCL方法，使用对抗性学习以避免在表示学习过程中捕获冗余信息。一般来说，GCL方法使用图数据增强(GDA)过程来扰乱原始的观测图，并减少它们编码的信息量。然后，这些方法在扰动图对（使用不同的GDA）上应用InfoMax来训练编码器 $f$ 以捕获剩余信息。

定义1：图数据增强(GDA)

对于一个图 $G∈\mathcal{G}$ ， $T (G)$ 表示 $G$ 的图数据增强，它是基于 $G$ 的在 $\mathcal{G}$ 上定义的分布。我们使用 $t(G)∈\mathcal{G}$ 来表示 $T (G)$ 的一个样本。

具体来说，给定两种GDA方式 $T_1$ 和 $T_2$ ，GCL的目标成为：
在这里插入图片描述
在实践中，GDA通常是基于领域知识或广泛的评估而预先设计的，而GDA的不当选择可能会严重影响下游性能。

与预定义的GDA相比，我们的想法受GIB的启发，是在一个参数化的家族上学习GDA，这样编码器 $f$ 就可以捕获足以识别每个图的最小信息。

AD-GCL：

我们通过一个GDA家族 $\mathcal{T}$ （定义如下）优化以下目标：
在这里插入图片描述
定义2：图数据增强家族

设 $\mathcal{T}$ 表示不同GDAs $T_Φ(·)$ 的一个家族，其中 $Φ$ 是参数。一个 $T_Φ(·)∈\mathcal{T}$ 是一个带有参数 $Φ$ 的特定GDA。

AD-GCL中的min-max原理旨在训练编码器，使即使使用一个具有非常侵略性的GDA（即 $t (G)$ 与 $G$ 非常不同），扰动图和原始图之间的互信息/对应关系也可以最大化。与GDA-GCL（公式(5)）中采用的两种GDA相比，AD-GCL将原始图 $G$ 视为锚，同时使其扰动 $T (G)$ 尽可能远离锚。对 $T∈\mathcal{T}$ 的自动搜索节省了评估GDA不同组合的大量工作。

将AD-GCL与下游任务相关联

接下来，我们将从理论上描述通过AD-GCL训练的编码器的特性。

定义3：图的商空间

如果 $G_1$ 、 $G_2$ 不能用1-WL检验来区分，则定义两个图之间的等价性 $G_1\cong G_2$ 。定义商空间为 $\mathcal{G}'=\mathcal{G}/\cong$ 。

因此，商空间中的每个元素，即 $G'∈\mathcal{G}'$ ，都是来自1-WL检验无法区分的图家族中的一个代表性图。请注意，我们的定义在属性图上也成立。

定义4： $\mathcal{G}'$ 中的概率测量

在空间 $\mathcal{G}'$ 上定义 $\mathbb{P}_{\mathcal{G}'}$ ，使任何 $G'∈\mathcal{G}'$ ， $\mathbb{P}_{\mathcal{G}'}(G')=\mathbb{P}_{\mathcal{G}}(G\cong G')$ 。近一步定义 $\mathbb{P}_{\mathcal{G}'×\mathcal{Y}}(G',Y')=\mathbb{P}_{\mathcal{G}×\mathcal{Y}}(G\cong G',Y=Y')$ 。给定一个在 $\mathcal{G}$ 上定义的GDA $T (\cdot)$ ，定义一个 $\mathcal{G}'$ 上的分布，使得对于 $G'∈\mathcal{G}'$ ，有 $T'(G')=\mathbb{E}_{G\sim\mathbb{P}_{\mathcal{G}}}[T(G)|G\cong G']$ 。

定理1：
在这里插入图片描述

3.2 通过可学习的边缘扰动实例化AD-GCL

在这里插入图片描述
AD-GCL的目标有两个方面：

优化编码器 $f$ ，使原始图 $G$ 与其增广图 $t (G)$ 的表示之间的互信息最大化；
优化GDA $T (G)$ ，其中T(G)被采样，以最小化互信息。

我们将编码器设置为具有可学习参数 $Θ$ 的GNN $f_Θ$ ，接下来我们将重点关注具有可学习参数 $Φ$ 的GDA， $T_Φ(G)$ 。

3.2.1 可学习的Edge Dropping GDA模型 $T_Φ(·)$

我们采用 Edge Dropping（删除图中的一些边）来表示GDA家族 $\mathcal{T}$ 。

3.2.2 参数化 $T_Φ(·)$

对于每个图 $G = (V, E)$ ，我们设置 $T_Φ(G),T∈\mathcal{T}$ 作为 $G$ 上的随机图模型。每个样本 $t(G)\sim T_Φ(G)$ 是一个与 $G$ 共享相同节点集的图，而边集 $t (G)$ 只是 $E$ 的一个子集。每条边 $e \in E$ 将与一个随机变量 $p_e∼Bernoulli(ω_e)$ 相关联，其中如果 $p_e=1$ ，则 $e$ 在 $t (G)$ 中，否则被删除。

我们利用另一个GNN，即增强器，根据公式（1）在 $G$ 上运行 $K$ 层，得到最后一层节点表示 ${h_v^{(K)}|v∈V\}$ 以及集合
在这里插入图片描述
为了以端到端的方式训练 $T (G)$ ，我们将离散的 $p_e$ 转化为[0,1]间的一个连续变量，并利用了Gumbel-Max重参数化技巧。具体来说， $p_e=Sigmoid((log\delta-log(1-\delta)+w_e)/\tau)$ ，其中 $δ \sim U n i f o u n (0, 1)$ 。随着温度超参数 $τ \to 0$ ， $p_e$ 更接近于二进制的值。此外，梯度 $\frac{∂p_e}{∂ω_e}$ 是光滑和定义的。

3.2.3 调整 $T_Φ(·)$

一个合理的GDA应保留与下游任务相关的一定数量的信息。因此，我们期望edge dropping家族 $\mathcal{T}$ 中的GDA不会执行非常激进的扰动。

我们通过强制执行以下约束来规则化每个图中被丢弃的边的比率：对于一个图 $G$ 及其增广图 $t (G)$ ，我们在其目标中添加 $\sum_{e∈E}ω_e/|E|$ ，其中 $ω_e$ （公式(7)中定义）表示 $e$ 被丢弃的概率。

最终的目标如下：
在这里插入图片描述
其中，第二项(正则化)很容易先验地评估。对于第一项(互信息)，在训练过程中，给定一个包含 $m$ 个图 $\{G_i\}^m_{i=1}$ 的小批次，令 $z_{i,1}=g(f_Θ(G_i))$ 、 $z_{i,2}=g(f_Θ(t(G_i)))$ ，其中 $g (\cdot)$ 是由2层MLP实现的投影头。用 $s i m (\cdot, \cdot)$ 表示余弦相似性，小批次的互信息如下：
在这里插入图片描述

4 实验

在这里插入图片描述

Cziun

关注

4
点赞
踩
12

收藏

觉得还不错? 一键收藏
2
评论
【论文阅读】AD-GCL：Adversarial Graph Augmentation to Improve Graph Contrastive Learning

目录摘要1 引言2 准备工作2.1 学习图表示2.2 GNNs2.3 互信息最大化3 对抗性图对比学习3.1 AD-GCL的理论动机及制定3.2 通过可学习的边缘扰动实例化AD-GCL3.2.1 可学习的Edge Dropping GDA模型TΦ(⋅)T_Φ(·)TΦ(⋅)3.2.2 参数化TΦ(⋅)T_Φ(·)TΦ(⋅)3.2.3 调整TΦ(⋅)T_Φ(·)TΦ(⋅)4 实验摘要提出了对抗性图对比学习——AD-GCL，它通过优化GCL中使用的对抗性图增强策略，使GNN在训练过程中避免捕获冗余(图
复制链接

扫一扫