图对比学习论文总结

文章探讨了图结构学习的框架,包括图构建、结构建模和图神经网络的应用。对比学习的核心是通过相似度度量使样本接近或远离,并介绍了数据增强在图学习中的作用,如随机采样、启发式和学习方法。同时,强调了在选择数据增强策略时的自动化方法和优化目标,如InfoNCE损失函数。
摘要由CSDN通过智能技术生成

论文题目:A Survey on Graph Structure Learning:Process and Opportunities(2021)

图结构学习(GSL)的框架如下。框架的输入为输入特征和图结构(可选)。通过结构建模模块对图结构进行迭代细化。利用精细的图结构,通过图神经网络(GNNs)获得图表示。最后,交替(或联合)更新gnn和结构建模模块中的参数,直到满足预设的停止条件。

 Graph construction:如果数据集没有给定图结构,或者图结构是不完整的,我们会构建一个初始的图结构,构建方法主要由两种:(1)KNN 构图,(2)阈值构图。

Graph structure modeling 是图结构学习的核心模块,不断改善图结构,现有的方法可以分类为:

1.Metric-based approaches: 利用一些度量函数(将节点对表征作为输入)来获得节点对的边权。这类方法会使用一些核函数用来计算节点对的相似度,并作为边权。常使用的核函数有(1)高斯核函数,(2)内积,(3)余弦相似度,(4)扩散核函数,(5) 结合多种核函数。

2.Neural approaches:给定节点表征,利用神经网络推理边权。

3.Direct approaches:将邻接矩阵看作是自由学习矩阵,通过 GNN 的参数来优化它们。

Direct approaches 将目标图的邻接矩阵作为学习的自由变量。由于不依赖于节点表示对边进行建模,direct approaches 具有更大的灵活性,但在学习矩阵参数方面会更困难。

这类方法大都使用正则器来优化邻接矩阵。比如 GLNN 会随机初始化一个邻接矩阵,然后给这个邻接矩阵施加一些正则作为辅助 loss,利用这个邻接矩阵进行下游任务(比如节点分类),结合下游任务的 loss 以及正则项 loss 共同来优化邻接矩阵。

论文题目:A Survey on Contrastive Self_Supervised Learning(2020)

对比学习最核心的观点是将相似样本靠近,不相似样本靠远。所以需要一个相似度衡量指标来衡量两个表示的相近程度。在对比学习中,最常用的指标是cosine similarity。

常见的优化算法包括 SGD 和 Adam 等。

论文题目:Graph Contrastive Learning with Augmentations(2020)

一、常见的图对比学习算法步骤

①随机采样

②数据增强

③用GNN编码,得到节点表示向量和图表示向量

④训练,根据上述表示向量计算 InfoNCE 损失,其中由同一个 graph 增强出来的 view 的表示相互靠近,由不同的 graph 增强得到的 view 的表示相互远离。

数据增强

1.启发式图数据增强方法

 图结构上

基于结构的图数据增强方式,主要为启发式约定 distribution,对 edge 和 node 进行修改,如随机删边 / 加边(edge perturbation / edge drop)、随机删除节点及与其相连的边(node drop)、随机游走采样子图(subgraph)等。特别地:

1. GCC KDD2020. 这篇文章中主要研究不同场景下图的迁移学习,因此在随机采样子图后,进一步进行了匿名化的操作,详见原论文 Sec. 3.2 Q2。

2. Contrastive Multi-View Representation Learning on Graphs. ICML2020. 这篇文章还提出修改邻接矩阵的操作,如可以将点与点之间的最短路径设置为邻接矩阵的权重,或者通过 diffusion 的操作对邻接矩阵做实值化。

3. GraphCL NeurIPS2020. 这篇文章提出,数据增强的选择与数据集的领域紧密相关,并探索了不同数据增强方式选择做效果的影响。

4. GCA WWW2021. 这篇文章提出根据节点的 centrality 设定删边的概率,不重要的边被删的概率更高。这里的 centrality 由 Degree、Eigenvector、PageRank 等方式定义。

图特征上

基于图上点特征或者边特征的图数据增强方式,主要包含随机遮掩特征(attribute / feature mask)、在特征向量上加高斯噪声等。特别地:GCA WWW21. 提出一套计算 feature 每一维度重要性的策略,并根据重要性进行 mask。

2.可学习数据增强方法

现有启发式图数据增强方法存在若干问题,如:

1. 过多的人工干预。往往要经过大量实验,才能对给定的数据挑选出合适的数据增强方式;

2. 启发式方法。这些预设的人工定义算法不一定总能保留 graph 本身的特性;

面对上述问题,探索了通过 learning 的方式,自动从数据中学习如何选择数据增强方式、或者如何实行数据增强。主要涉及工作有:

  • Graph Contrastive Learning Automated. ICML 2021.

  • Adversarial Graph Augmentation to Improve Graph Contrastive Learning. NeurIPS 2021.

  • Bringing Your Own View: Graph Contrastive Learning without Prefabricated Data Augmentations. WSDM 2022

如何选择合适的数据增强方法 

不同领域的数据集所需要的数据增强方式不同。在 ICML 2021 的论文 Graph Contrastive Learning Automated 中,作者以 GraphCL 为基础,设计了自动选择数据增强方式的 JOAO 框架。大体思想为通过对抗训练(adversarial training)的方式,迭代训练选择每种数据增强方式的概率矩阵,并对应更换 GraphCL 中的映射头(projection head)。实验结果表明,对抗训练学习得到的概率矩阵和此前 GraphCL 关于数据增强选择的实验结果趋势相近,并在不需要过多人工干预的情况下达到了有竞争力的结果。

论文标题:Self-supervised Learning on Graphs: Contrastive, Generative,or Predictive(2021)

对比学习方法的总体框架,包括三个主要模块:数据增强策略、pretext任务和对比目标。通过单个或组合增强T1(·)和T2(·)来生成不同的视图。对于图编码器fθ1(·)和fθ2(·),常用的图神经网络包括GAE[44]、VGAE[44]等。这两个对比视图可能是本地的、上下文的或全局的,对应于图中的节点级(红色标记)、子图级(绿色标记)或图级(黄色标记)信息。因此,对比学习可以在相同或不同尺度上对两个视图进行对比,从而产生两类算法:(1)同尺度对比,包括local-local、context-context和global-global对比;(2)跨尺度对比,包括local-context、local-global和context-global对比。

 区别于(半)监督学习,我们使用的对比学习方法中没有显式给出节点标签/图标签。我们的目标是训练一个GNN编码器 ,通过接受图的特征和结构信息,输出低维的节点表示,而这一编码器则需要通过设置对比学习的优化目标来进行学习。

优化目标

1. 基于最大化互信息进行优化

2. InfoNCE:基于alignment和uniformity的范式进行表征优化

在这一节中,我们使用的损失函数为CPC提出的的InfoNCE。为使定义更具通用性,我们将InfoNCE进一步扩展为SimCLR中的temperature InfoNCE:

InfoNCE公式可以推导成两个部分,alignment和uniformity,其中alignment部分只与正样本相关,希望正样本的特征拉近;uniformity部分只与负样本相关,希望所有点的特征尽可能均匀分布在unit hypersphere上。

因此基于InfoNCE的优化目标可以总结为:同时构造出正样本和负样本,将正样本的特征尽可能地拉近,负样本的特征尽可能的拉远形成均匀分布,同时保证alignment与uniformity。

可以看到,对比学习的主流方法中通常需要正负样本之间进行对比,从而实现我们提到的最大化互信息或者保留alignment和uniformity的优化目标。但通常来说负样本的存储需要比较高额的代价,因此需要负样本的对比学习的研究中,也涌现了许多如何存储更多负样本,如何挖掘难负样本的工作;不过不久后,BYOL(f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization,2016)的出现,为我们从负样本中解放出来,无负样本也能做对比学习,提供了不一样的新视角。

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值