​KDD 2023 | MaskGAE:图自编码器背后的掩码机理

c79b48d1fbcda136b3703b451c7facae.gif

©PaperWeekly 原创 · 作者 | xzjin, jtli

单位 | 中山大学

研究方向 | 图表示学习

2018 年,Bert [1] 的横空出世引领了 NLP 领域的高速发展,通过 Bert 学到的特征在下游任务中取得了非常优异的成绩,在众多公开数据集上获得了 SOTA。体现了 Bert 所利用的代理任务:masked language model(MLM)的强大能力。2021 年,Kaiming 提出的 MAE [2],通过与 MLM 相似的设计思路,提出了基于 masked image model(MIM)的 MAE,在精度上成功超越了之前占据主流地位的对比学习方法。

masked autoencoding 在文本和图像数据上的成功,也激励了图领域的研究人员:是否可以设计一种新的范式,将 masked autoencoding 应用到非欧数据 graph 上呢?更进一步,如果这样子做获得了成功,那么其背后的机理又是什么?带着这些疑问,我们提出了 maskgae,从理论和实践上对基于掩码的图自编码器进行了探索。

665d97d8602caf199a017492f8372804.png

论文题目:

What's Behind the Mask: Understanding Masked Graph Modeling for Graph Autoencoders

论文链接:

https://arxiv.org/abs/2205.10053

论文代码:

https://github.com/edisonleeeee/maskgae

e626770e2e193d89221556c8ce628986.png

背景

在图上做自监督学习往往有两大范式:对比式与生成式。

对比式的方法基于对比学习,通过学习对图的不同增强视图的不变的表示,在各种图表示学习任务中取得了显著成功。尽管图对比方法有效且普遍,但它高度依赖于专门且复杂的代理来进行自监督学习,并且通常需要精心设计的数据增强方法以生成图的不同结构视图。

生成式方法的典型代表是图自编码器(GAE)。其将图输入本身作为自监督并学习重建图结构。与对比方法相比,GAE 通常实现起来非常简单,可以自然地利用图重建作为代理任务,而不需要设计增强视图。但遵循简单的图重构原理的 GAE 可能会过分强调邻近信息,并不总是有利于自监督学习,使其不太适用于链接预测之外的其他具有挑战性的任务。因此,需要为 GAE 设计更好的代理任务。

而 BERT 和 MAE 用到的 MLM 和 MIM 给了我们启发,是否可以设计 masked graph modeling(MGM),促进 GAE 的性能?

03fce583970a6d81e81b875421ae6c6a.png

动机

2.1 重新审视GAEs

GAEs 采用经典的编码器-解码器框架,该框架旨在通过优化以下二值交叉熵损失,从编码图的低维表示进行解码:

60670049feb0c19d879e96765cc1727f.png

其中 代表经过图编码器生成的节点表示, 代表解码器, , 分别代表正样本和采样的负样本集合。可以看到,GAEs 通过利用图中相似和不相似节点对作为自监督信号,显示出学习图结构和节点表示的优势。

2.2 GAEs与对比学习之间的联系

在本节分析中,所有理论基础都是基于同态(homophily)图的:如果节点 u 和  之前存在一条边连接,那么它们的底层语义更

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值