前言: 本文将围绕最近一些在图上自监督学习的论文,对其中“Contrastive Learning”的内容进行一些解读,包括一些自监督学习的思路。主要论文具体信息如下:
第一篇论文为2020的一篇综述(论文链接),论文的第一作者为清华大学的Xiao Liu,具体信息如下:
第二篇论文为ICML2020的一篇论文(论文链接),论文的第一作者为加拿大Autodesk AI Lab的Kaveh Hassani,具体信息如下:
代码链接:https://github.com/kavehhassani/mvgrl
第三篇论文为KDD2020的一篇论文(论文链接),论文的第一作者为清华大学的Jiezhong Qiu,具体信息如下:
代码链接:THUDM/GCC
专栏作者 | 李家郡,中国人民大学信息学院
一、自监督学习背景
首先,介绍《Self-supervised Learning: Generative or Contrastive》,其内容覆盖了CV、NLP、Graph三个方向自监督学习的成果。而本文会将主要目光放在Graph上的自监督学习。
文章将自监督学习主要分为三类:Generative、Contrastive、Adversarial(Generative-Contrastive)。目前,个人认为大部分Graph研究的目光都集中在Contrstive Learning上。个人拙见,原因可能与图学习的任务有关,图学习的任务主要集中在分类上(节点分类、图分类),对比学习天然会比生成学习更适用于分类任务,所以或许当生成满足某种性质的随机图任务成为主流之后,生成式模型就会成为主流。而对抗式(Adversarial)的学习,则会在生成式学习、对比式学习都达到瓶颈时,得到更好的发展。目前,在图领域,并未看到Adversarial Learning有惊人表现的文章。
当笔者初识自监督学习时,通过他人的介绍,仅理解为了一种利用自身性质,标注更多标签的一种手段,但随着论文阅读的增加,对自监督本质的理解越来越迷惑。个人理解,其实任意挖掘对象之间联系、探索不同对象共同本质的方法,都或多或少算是自监督学习的思想。原始的监督学习、无监督学习,都被目所能及的一切所约束住,无法泛化,导致任务效果无法提升,正是因为自监督探索的是更本质的联系,而不是表像的结果,所以其效果通常出乎意料的好。自监督学习的前两类方法,其核心想法其实都是想去探索事物的本质。
本文重点将放在Contrastive Learning的发展脉络上,对于Generative Learning将只结合《Self-supervised Learning: Generative or Contrastive》介绍一些粗浅的理解。
二、Generative Self-Supervised Learning
综述中主要介绍了四类基于生成式的自监督模型,最后一类是前三类模型的混合版,而在图学习领域,使用的比较多的应该是第三种,即AE的方法,在后文总结表格中有所体现,这里也就不对混合型生成模型进行描述了。
Auto-Regressive (AR) Model
文章提到 “自回归模型可以看作是贝叶斯网络结构”。Auto-Regressive Model 最初是在统计上处理时间序列的方法,时间序列最基础的两种模型就是AR与MA。AR的理论基础确实就是贝叶斯方法,也就是条件概率的一套理论。任意一个节点的分布都可以借其他节点作为条件,以此计算自身的概率分布。这样的思想用在图生成和扩张上,再适合不过。线性回归是最基础的预测模型,预测的结果就是生成的目标。
Flow-based Model
Flow-based models 是希望估计数据的复杂高维分布。这个方法也可以找到和统计相关的方法。思想其实是广义线性回归模型,都是想用一个潜变量对未知的复杂分布进行估计。