NIPS21 AD-GCL： Adversarial Graph Augmentation to Improve Graph Contrastive Learning

最新推荐文章于 2024-10-08 12:54:42 发布

Complicated__76

最新推荐文章于 2024-10-08 12:54:42 发布

阅读量786

点赞数

分类专栏： GNN-SSL learning GNN-graph-level GNN-graph 邻接矩阵结构学习文章标签：算法人工智能 python

本文链接：https://blog.csdn.net/qq_40926715/article/details/127586443

版权

GNN-SSL learning 同时被 3 个专栏收录

37 篇文章 13 订阅

订阅专栏

GNN-graph-level

6 篇文章 0 订阅

订阅专栏

GNN-graph 邻接矩阵结构学习

4 篇文章 1 订阅

订阅专栏

talk

Pan Li组的还是有看的必要，前几天就看到这个，但当时看到是信息瓶颈+对抗就没看。
文章读着很舒服，写作nice！！

摘要

子监督GNN不需要标签，仅通过最大化同一图在不同aug下的相关性，所学表征鲁棒并且迁移性好。
然而，大多GCL都是捕获了多余的信息，下游任务次优。本文提出对抗AD-GCL，使得GNN避免捕获多于信息通过优化对抗图增强技术。设计了一种可训练的 edge-dropping手段来实例化这个方法。
分子性能回归，分类，社交网络分类。

1. 介绍

介绍了GNN。阐明标签花费，并且像药物和分子需要活体实验才可以取得标签，因此自监督GNN兴起。
对于自监督GNN，设计学习的理论很重要，决定了gnn能够捕获什么信息，这种信息会影响下游任务性能。GAE那些重构邻接矩阵过度强调近邻，忽略了结构信息。然而，图对比学习兴起了，利用信息最大化理论infomax来最大化图或节点在不同视角下的一致性。
然而，indomax可能是risky的，使得encoder捕获了和下游任务不相关的多余信息。多余的信息满足infomax的理论，但是表征脆弱且下游任务恶化。因此，使得作者想起来另外的理论：information bottleneck。和infomax相反，IB要求encoder捕获最小化但充分的信息对于下游任务。即：最小化原始信息，同时最大化和下游任务相关的信息。因为冗余信息被移除，因此，表征更加鲁棒，更加可以迁移。但是，IB需要下游任务的知识，这些下游任务知识无法获得。
本文是在无法得知下游任务知识的情况下，移除多余信息。提出的方法使得GCL和对抗训练结合，关注于图级任务，但同样可以迁移到节点级。
包含两个部分：1. 一个encoder去最大化infomax在原始图和增强视角之间。 2. 一个GNN-based的 augmenter，目的在于优化这个增强策略，来减少冗余信息。有理论解释，本文的方法，当这个augmenter带有某种正则进行空间搜索，能够产生下游任务信息的下界（给任务最小的信息），同时保证对于原始图的信息的上界（不要多给信息）。本文给了一个实例化：augmenter采用task不可知的增强策略将会学到一个非整体哎的 edgedrop概率来学到图增强。

2.Notations and Preliminaries

介绍图级任务，介绍MPNN。介绍infomax：encoder最大化graph和表征间的互信息（相关性）。
这里还提到了和CNN作为encoder在cv对比不同的是，GNN不是单射的，不能期望其识别所有graph，这是GIN等weisifier-leman测试考虑的问题

3. Adversarial Graph Contrastive Learning

3.1 Theoretical Motivation and Formulation of AD-GCL

研究表明采用infomax捕获的信息，很多余，其与标签无关，因此对分类什么的没帮助。
作者这里在ogbg-molbace上进行实验，两个encoder都是infomax，但其中一个用了随机标签进行监督。因为两个encoder都是符合infomax的目标函数，但是随机标签性能下降，这说明这个理论还是不能够保证 encoder 得到的表征能够去捕获类别相关的信息。因为如果可以就不会受到随机标签影响？
在这里插入图片描述
这使得让人思考好的表征是什么？作者考虑IB理论：公式4 第二项是和infomax相反的，意味着最小化这个信息，但是第一项要求最大化表征和下游任务（Y）之间的信息。这样就移除了不必要的冗余信息。

但是自监督没有标签没有下游任务的先验信息。本文提出使用对抗训练来避免捕获多余信息。一方面采用数据增强来干扰原始图，减少信息。另一方面采用infomax最大化剩余的这些信息。

GDA-GCL：就是 graph aug12，进行最大化互信息，但这个增强方法都是预定义的。
在这里插入图片描述
本文的 AD-GCL 不同于他们的，这里是min T。max f。就是当t（G）和原来的G很不同时，encoder还是能够最大化MI。

底下是说明因为GNN被1-WL限制，不是单射，因此这里定义图等价==不能被1-WL分辨

定理1 中的第一点和GIB的优化目标类似，保证上界。第二点保证一个下界
在这里插入图片描述

3.2 实例化一个

AD-GCL： 1.优化encoder 最大化infomax。 2. 优化GDA T（G），来最小化互信息。
本文采用edge dropping，作者说 node drop 或者加边，特征mask这些GDA 都符合 AD-GCL理论，但是实验中这么一个简单的方法就达到了好的效果。（噗）原因：丢边符合定理1的陈述2，好的GDA应该保证一些和下游任务相关的信息。作者说下游一般是分子分类，丢边不会改变子图结构因此会有效果。这个和GraphCL的相反啊，图级预测边轻微改了就不行了。对于社交网络等节点级的有效，这个合理。

理论结束：看看怎么实现吧~ 通过这个 we的概率 从伯努利分布中 抽样丢边。 之前的GCA 等都是 预设，或者是根据 图的属性计算出这个 概率。 
本文通过一个额外的GNN，augmenter 。通过拼接两个节点输入到mlp算出we。pe是通过we重参数计算出来

在这里插入图片描述

	定理1的第二条说明 一个好的GDA应该和下游任务相关。 为了不让丢弃太多，加了一个正则项

在这里插入图片描述

最终实现： 采用infonce来实现GIB的 第一项infomax--max。。
min就是通过额外的训练一个augmenter来丢边（正则项是防止丢太多）

在这里插入图片描述

实验

在这里插入图片描述

Complicated__76

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录