文献阅读（54）arXiv2021-Graph Self-Supervised Learning-A Survey

学徒刘猛

已于 2022-10-28 12:07:59 修改

阅读量599

点赞数

分类专栏：文献阅读文章标签：机器学习数据挖掘

于 2021-10-10 14:40:18 首次发布

本文链接：https://blog.csdn.net/CSDNTianJi/article/details/120686123

版权

文献阅读专栏收录该内容

87 篇文章 32 订阅

订阅专栏

本文是对《Graph Self-Supervised Learning: A Survey》一文的浅显翻译与理解，如有侵权即刻删除。

朋友们，我们在github创建了一个图学习笔记库，总结了相关文章的论文、代码和我个人的中文笔记，能够帮助大家更加便捷地找到对应论文，欢迎star~

Chinese-Reading-Notes-of-Graph-Learning

更多相关文章，请移步：文献阅读总结：网络表示学习/图学习

Title

《Graph Self-Supervised Learning: A Survey》

——arXiv2021

Author: Yixin Liu

总结

文章对图上的自监督学习方法进行做出综述，从模型框架、训练方法、任务目标三部分对图自监督学习方法进行分类，此外还介绍了实际应用场景，适用数据集和未来发展方向。

自监督学习是一种新兴的学习理念，已经广泛应用于自然语言处理和计算机视觉等领域，其目的在于，不再依赖人为赋予的标签，而是通过数据本身来为数据自动地设置标签或进行数据增强，让数据在训练过程中以自身变体为监督信号。自监督学习在各领域的应用如下图所示：

在这里插入图片描述

对该文做概括图如下：

在这里插入图片描述

接下来，将分为如图所示的几个部分，主要围绕针对模型框架的分类，对具体每一部分进行介绍。

1 基于模型框架的分类

1.1 基于生成的方法

基于生成的方法致力于重构输入数据，并将输入数据作为其监督信号。生成手段包括特征生成和结构生成，有示例如下：

在这里插入图片描述

1.1.1 特征生成

特征生成主要通过对原始图进行扰动来覆盖特征信息，这些特征信息包括节点中心度数、附加属性等，如上图中的图补全。

1.1.2 结构生成

结构生成通过对原始图进行部分边的掩码，训练模型对图的拓扑结构进行重构，如上图中的去噪链路重建。

1.2 基于辅助属性的方法

该类方法往往通过从节点级、边级和图级属性中获取监督信号，而这些属性可以从图中生成，相当于自适应地为数据添加新的标签，该类方法按照属性是离散或连续，可分为分类方法与回归方法，如下图所示：

在这里插入图片描述

1.2.1 辅助属性分类

分类方法意味着辅助属性是离散的，比如不同的标签值，可进行多类别地划分，图中的节点可以在训练前分配各自属性，在训练过程中约束预测值与事先分配的属性值尽可能一致。这些属性往往包括所属聚类、某一节点的邻居阶数等，又可进一步进行划分：

1.2.1.1 基于聚类的分类方法

该类方法会将图中的节点按照聚类方法分为多个类或社区，那么不同类的节点就可以附加为不同标签。

1.2.1.2 基于配对关系的分类方法

该类方法不再关注于单个节点，而是每个节点对，即节点间的边或交互。按照交互时间的先后或邻居阶数的不同，就可以分配为不同的标签，同样在训练中约束预测的标签与事先分配标签一致。

1.2.2 辅助属性回归

回归方法意味着辅助属性是连续的，比如节点间度数是不同的，但如果进行分类的话，每个度数值都会被分为一类，起不到分类聚合的效果，因此采用回归的方法，即拟合出曲线将这些值分配在曲线附近。这些属性还包括节点到每个聚类中心的距离，节点间的相似性等。

1.3 基于对比的方法

该类方法建立在互信息最大化(mutual information maximization)的思想上，通过预测两个增强实例间的一致性进行训练学习。换言之，即通过对原始数据进行数据增强生成新的视图或实例，并约束这些实例尽可能一致。

1.3.1 图增强

该类方法关注于对图本身进行数据增强，按照增强的方向不同可进一步分类，如下图所示：

在这里插入图片描述

1.3.1.1 属性增强

该类方法往往是用来对节点级的属性特征进行视图增强，包括节点特征掩码NFM和节点特征重组NFS等。

1.3.1.2 结构增强

该类方法通过修改图的拓扑结构进行数据增强，包括边修改EM和图扩散GD等。

1.3.1.3 混合式数据增强

该类方法往往结合节点属性及图的拓扑结构来共同构建新视图，如子图采样SS等。

1.3.2 图对比学习

图对比学习的方法，旨在最大化具有相似语义信息的实例之间的MI，因此可以构建各类任务来增强该类信息的监督信号。按照对比尺度的不同，可以分为两类，如下图所示：

在这里插入图片描述

1.3.2.1 同尺度对比

该类方法会在同尺度下生成不同的视图，按照节点级和图级的尺度不同，可分为两类。

1.3.2.1.1 节点级同尺度对比

该类方法认为，具有相似环境信息的节点应当具有相似的表征，网络表征学习的经典方法通常被分到该类中。

1.3.2.1.2 图级同尺度对比

该类方法往往研究的是全图的表征学习。

1.3.2.2 跨尺度对比

该类方法会进行跨越节点和图尺度的对比，可进一步分为两类。

1.3.2.2.1 补丁-全局跨尺度对比

该类方法将节点表征和图表征进行对比，使得不同视图下局部和全局间的互信息最大化。

1.3.2.2.2 环境-全局跨尺度对比

该类方法学习关于节点上下文环境的表征和关于全图的表征，并进行对比，同样是约束互信息最大化。

1.3.3 互信息最大化

基于对比学习的方法，往往都依赖于互信息MI最大化这一概念，文章在此进行了解释。其根本思想在于，使得偏好、特征或行为接近的实例（正样本）的表征向量尽可能接近，而上述属性相悖的实例（负样本）的表征向量尽可能偏离。文章给出了计算MI的几种常见形式：Jensen-Shannon Estimator、Noise-Contrastive Estimator、Triplet Loss、BYOL Loss、Barlow Twins Loss，在此不再详细介绍。

1.4 混合式方法

混合式方法往往将上述几类方法进行结合，通过构建多个任务目标来更好地利用各类监督信号的优势，其损失函数往往是两个或多个自监督目标的加权和。该类方法可分为：结合不同基于生成的方法、结合生成和对比任务的方法、结合多种基于对比的方法、结合不同基于辅助属性的方法。

2 其他

2.1 基于训练结构的方法分类

图上的自监督学习方法又可按照训练结构进行细分：预训练和微调方法、共同学习方法、无监督表征学习方法。

2.2 基于实验任务的方法分类

按照实验任务目标的不同，可在不同级别进行分类。

2.2.1 节点级任务

节点级任务包括节点回归和节点聚类。

2.2.2 边级任务

边级任务包括边分类和链路预测。

2.2.3 图级任务

图级任务包括图分类和图回归。

2.3 现实应用场景

图上的自监督学习方法有着如下的应用场景：推荐系统、异常检测、化学方面（如分子化合物生成、靶向用药）等。

2.4 数据集

这些方法往往用于如下的数据集：引文网络、购物网络、社交网络、生物化学网络等。

2.5 未来研究方向

未来研究方向包括：构建图自监督学习的理论基础、图自监督学习的可解释性与鲁棒性、预设任务用于复杂图或超图、对图对比学习的扩展、多预设任务的学习、实际应用范围的拓宽。

学徒刘猛

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
文献阅读（54）arXiv2021-Graph Self-Supervised Learning-A Survey

本文是对《Graph Self-Supervised Learning: A Survey》一文的浅显翻译与理解，如有侵权即刻删除。
复制链接

扫一扫