KDD 2023 | MaskGAE：图自编码器背后的掩码机理

最新推荐文章于 2024-05-25 11:00:18 发布

PaperWeekly

最新推荐文章于 2024-05-25 11:00:18 发布

阅读量243

点赞数

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/132419122

版权

©PaperWeekly 原创 · 作者 | xzjin, jtli

单位 | 中山大学

研究方向 | 图表示学习

2018 年，Bert [1] 的横空出世引领了 NLP 领域的高速发展，通过 Bert 学到的特征在下游任务中取得了非常优异的成绩，在众多公开数据集上获得了 SOTA。体现了 Bert 所利用的代理任务：masked language model（MLM）的强大能力。2021 年，Kaiming 提出的 MAE [2]，通过与 MLM 相似的设计思路，提出了基于 masked image model（MIM）的 MAE，在精度上成功超越了之前占据主流地位的对比学习方法。

masked autoencoding 在文本和图像数据上的成功，也激励了图领域的研究人员：是否可以设计一种新的范式，将 masked autoencoding 应用到非欧数据 graph 上呢？更进一步，如果这样子做获得了成功，那么其背后的机理又是什么？带着这些疑问，我们提出了 maskgae，从理论和实践上对基于掩码的图自编码器进行了探索。

论文题目：

What's Behind the Mask: Understanding Masked Graph Modeling for Graph Autoencoders

论文链接：

https://arxiv.org/abs/2205.10053

论文代码：

https://github.com/edisonleeeee/maskgae

背景

在图上做自监督学习往往有两大范式：对比式与生成式。

对比式的方法基于对比学习，通过学习对图的不同增强视图的不变的表示，在各种图表示学习任务中取得了显著成功。尽管图对比方法有效且普遍，但它高度依赖于专门且复杂的代理来进行自监督学习，并且通常需要精心设计的数据增强方法以生成图的不同结构视图。

生成式方法的典型代表是图自编码器（GAE）。其将图输入本身作为自监督并学习重建图结构。与对比方法相比，GAE 通常实现起来非常简单，可以自然地利用图重建作为代理任务，而不需要设计增强视图。但遵循简单的图重构原理的 GAE 可能会过分强调邻近信息，并不总是有利于自监督学习，使其不太适用于链接预测之外的其他具有挑战性的任务。因此，需要为 GAE 设计更好的代理任务。

而 BERT 和 MAE 用到的 MLM 和 MIM 给了我们启发，是否可以设计 masked graph modeling（MGM），促进 GAE 的性能？

动机

2.1 重新审视GAEs

GAEs 采用经典的编码器-解码器框架，该框架旨在通过优化以下二值交叉熵损失，从编码图的低维表示进行解码：

其中代表经过图编码器生成的节点表示，代表解码器，，分别代表正样本和采样的负样本集合。可以看到，GAEs 通过利用图中相似和不相似节点对作为自监督信号，显示出学习图结构和节点表示的优势。

2.2 GAEs与对比学习之间的联系

在本节分析中，所有理论基础都是基于同态（homophily）图的：如果节点 u 和之前存在一条边连接，那么它们的底层语义更

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
KDD 2023 | MaskGAE：图自编码器背后的掩码机理

©PaperWeekly 原创 ·作者 |xzjin, jtli单位 |中山大学研究方向 |图表示学习2018 年，Bert [1] 的横空出世引领了 NLP 领域的高速发展，通过 Bert 学到的特征在下游任务中取得了非常优异的成绩，在众多公开数据集上获得了 SOTA。体现了 Bert 所利用的代理任务：masked language model（MLM）的强大能力。2021 年，Kai...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。