本文是对《Graph Self-Supervised Learning: A Survey》一文的浅显翻译与理解,如有侵权即刻删除。
朋友们,我们在github创建了一个图学习笔记库,总结了相关文章的论文、代码和我个人的中文笔记,能够帮助大家更加便捷地找到对应论文,欢迎star~
Chinese-Reading-Notes-of-Graph-Learning
更多相关文章,请移步:文献阅读总结:网络表示学习/图学习
Title
《Graph Self-Supervised Learning: A Survey》
——arXiv2021
Author: Yixin Liu
总结
文章对图上的自监督学习方法进行做出综述,从模型框架、训练方法、任务目标三部分对图自监督学习方法进行分类,此外还介绍了实际应用场景,适用数据集和未来发展方向。
自监督学习是一种新兴的学习理念,已经广泛应用于自然语言处理和计算机视觉等领域,其目的在于,不再依赖人为赋予的标签,而是通过数据本身来为数据自动地设置标签或进行数据增强,让数据在训练过程中以自身变体为监督信号。自监督学习在各领域的应用如下图所示:
对该文做概括图如下:
接下来,将分为如图所示的几个部分,主要围绕针对模型框架的分类,对具体每一部分进行介绍。
1 基于模型框架的分类
1.1 基于生成的方法
基于生成的方法致力于重构输入数据,并将输入数据作为其监督信号。生成手段包括特征生成和结构生成,有示例如下:
1.1.1 特征生成
特征生成主要通过对原始图进行扰动来覆盖特征信息,这些特征信息包括节点中心度数、附加属性等,如上图中的图补全。
1.1.2 结构生成
结构生成通过对原始图进行部分边的掩码,训练模型对图的拓扑结构进行重构,如上图中的去噪链路重建。
1.2 基于辅助属性的方法
该类方法往往通过从节点级、边级和图级属性中获取监督信号,而这些属性可以从图中生成,相当于自适应地为数据添加新的标签,该类方法按照属性是离散或连续,可分为分类方法与回归方法,如下图所示:
1.2.1 辅助属性分类
分类方法意味着辅助属性是离散的,比如不同的标签值,可进行多类别地划分,图中的节点可以在训练前分配各自属性,在训练过程中约束预测值与事先分配的属性值尽可能一致。这些属性往往包括所属聚类、某一节点的邻居阶数等,又可进一步进行划分:
1.2.1.1 基于聚类的分类方法
该类方法会将图中的节点按照聚类方法分为多个类或社区,那么不同类的节点就可以附加为不同标签。
1.2.1.2 基于配对关系的分类方法
该类方法不再关注于单个节点,而是每个节点对,即节点间的边或交互。按照交互时间的先后或邻居阶数的不同,就可以分配为不同的标签,同样在训练中约束预测的标签与事先分配标签一致。
1.2.2 辅助属性回归
回归方法意味着辅助属性是连续的,比如节点间度数是不同的,但如果进行分类的话,每个度数值都会被分为一类,起不到分类聚合的效果,因此采用回归的方法,即拟合出曲线将这些值分配在曲线附近。这些属性还包括节点到每个聚类中心的距离,节点间的相似性等。
1.3 基于对比的方法
该类方法建立在互信息最大化(mutual information maximization)的思想上,通过预测两个增强实例间的一致性进行训练学习。换言之,即通过对原始数据进行数据增强生成新的视图或实例,并约束这些实例尽可能一致。
1.3.1 图增强
该类方法关注于对图本身进行数据增强,按照增强的方向不同可进一步分类,如下图所示:
1.3.1.1 属性增强
该类方法往往是用来对节点级的属性特征进行视图增强,包括节点特征掩码NFM和节点特征重组NFS等。
1.3.1.2 结构增强
该类方法通过修改图的拓扑结构进行数据增强,包括边修改EM和图扩散GD等。
1.3.1.3 混合式数据增强
该类方法往往结合节点属性及图的拓扑结构来共同构建新视图,如子图采样SS等。
1.3.2 图对比学习
图对比学习的方法,旨在最大化具有相似语义信息的实例之间的MI,因此可以构建各类任务来增强该类信息的监督信号。按照对比尺度的不同,可以分为两类,如下图所示:
1.3.2.1 同尺度对比
该类方法会在同尺度下生成不同的视图,按照节点级和图级的尺度不同,可分为两类。
1.3.2.1.1 节点级同尺度对比
该类方法认为,具有相似环境信息的节点应当具有相似的表征,网络表征学习的经典方法通常被分到该类中。
1.3.2.1.2 图级同尺度对比
该类方法往往研究的是全图的表征学习。
1.3.2.2 跨尺度对比
该类方法会进行跨越节点和图尺度的对比,可进一步分为两类。
1.3.2.2.1 补丁-全局跨尺度对比
该类方法将节点表征和图表征进行对比,使得不同视图下局部和全局间的互信息最大化。
1.3.2.2.2 环境-全局跨尺度对比
该类方法学习关于节点上下文环境的表征和关于全图的表征,并进行对比,同样是约束互信息最大化。
1.3.3 互信息最大化
基于对比学习的方法,往往都依赖于互信息MI最大化这一概念,文章在此进行了解释。其根本思想在于,使得偏好、特征或行为接近的实例(正样本)的表征向量尽可能接近,而上述属性相悖的实例(负样本)的表征向量尽可能偏离。文章给出了计算MI的几种常见形式:Jensen-Shannon Estimator、Noise-Contrastive Estimator、Triplet Loss、BYOL Loss、Barlow Twins Loss,在此不再详细介绍。
1.4 混合式方法
混合式方法往往将上述几类方法进行结合,通过构建多个任务目标来更好地利用各类监督信号的优势,其损失函数往往是两个或多个自监督目标的加权和。该类方法可分为:结合不同基于生成的方法、结合生成和对比任务的方法、结合多种基于对比的方法、结合不同基于辅助属性的方法。
2 其他
2.1 基于训练结构的方法分类
图上的自监督学习方法又可按照训练结构进行细分:预训练和微调方法、共同学习方法、无监督表征学习方法。
2.2 基于实验任务的方法分类
按照实验任务目标的不同,可在不同级别进行分类。
2.2.1 节点级任务
节点级任务包括节点回归和节点聚类。
2.2.2 边级任务
边级任务包括边分类和链路预测。
2.2.3 图级任务
图级任务包括图分类和图回归。
2.3 现实应用场景
图上的自监督学习方法有着如下的应用场景:推荐系统、异常检测、化学方面(如分子化合物生成、靶向用药)等。
2.4 数据集
这些方法往往用于如下的数据集:引文网络、购物网络、社交网络、生物化学网络等。
2.5 未来研究方向
未来研究方向包括:构建图自监督学习的理论基础、图自监督学习的可解释性与鲁棒性、预设任务用于复杂图或超图、对图对比学习的扩展、多预设任务的学习、实际应用范围的拓宽。