©PaperWeekly 原创 · 作者 | xzjin, jtli
单位 | 中山大学
研究方向 | 图表示学习
2018 年,Bert [1] 的横空出世引领了 NLP 领域的高速发展,通过 Bert 学到的特征在下游任务中取得了非常优异的成绩,在众多公开数据集上获得了 SOTA。体现了 Bert 所利用的代理任务:masked language model(MLM)的强大能力。2021 年,Kaiming 提出的 MAE [2],通过与 MLM 相似的设计思路,提出了基于 masked image model(MIM)的 MAE,在精度上成功超越了之前占据主流地位的对比学习方法。
masked autoencoding 在文本和图像数据上的成功,也激励了图领域的研究人员:是否可以设计一种新的范式,将 masked autoencoding 应用到非欧数据 graph 上呢?更进一步,如果这样子做获得了成功,那么其背后的机理又是什么?带着这些疑问,我们提出了 maskgae,从理论和实践上对基于掩码的图自编码器进行了探索。
论文题目:
What's Behind the Mask: Understanding Masked Graph Modeling for Graph Autoencoders
论文链接:
https://arxiv.org/abs/2205.10053
论文代码:
https://github.com/edisonleeeee/maskgae
背景
在图上做自监督学习往往有两大范式:对比式与生成式。
对比式的方法基于对比学习,通过学习对图的不同增强视图的不变的表示,在各种图表示学习任务中取得了显著成功。尽管图对比方法有效且普遍,但它高度依赖于专门且复杂的代理来进行自监督学习,并且通常需要精心设计的数据增强方法以生成图的不同结构视图。
生成式方法的典型代表是图自编码器(GAE)。其将图输入本身作为自监督并学习重建图结构。与对比方法相比,GAE 通常实现起来非常简单,可以自然地利用图重建作为代理任务,而不需要设计增强视图。但遵循简单的图重构原理的 GAE 可能会过分强调邻近信息,并不总是有利于自监督学习,使其不太适用于链接预测之外的其他具有挑战性的任务。因此,需要为 GAE 设计更好的代理任务。
而 BERT 和 MAE 用到的 MLM 和 MIM 给了我们启发,是否可以设计 masked graph modeling(MGM),促进 GAE 的性能?
动机
2.1 重新审视GAEs
GAEs 采用经典的编码器-解码器框架,该框架旨在通过优化以下二值交叉熵损失,从编码图的低维表示进行解码:
其中 代表经过图编码器生成的节点表示, 代表解码器, , 分别代表正样本和采样的负样本集合。可以看到,GAEs 通过利用图中相似和不相似节点对作为自监督信号,显示出学习图结构和节点表示的优势。
2.2 GAEs与对比学习之间的联系
在本节分析中,所有理论基础都是基于同态(homophily)图的:如果节点 u 和 之前存在一条边连接,那么它们的底层语义更