NIPS21 AD-GCL: Adversarial Graph Augmentation to Improve Graph Contrastive Learning

talk

Pan Li组的 还是有看的必要,前几天就看到这个,但当时看到是 信息瓶颈+对抗就没看。
文章读着很舒服,写作nice!!

摘要

子监督GNN不需要标签,仅通过 最大化 同一图 在不同aug下的相关性,所学表征鲁棒并且迁移性好。
然而,大多GCL都是 捕获了多余的信息,下游任务次优。 本文提出对抗AD-GCL,使得GNN避免捕获多于信息通过优化对抗图增强技术。 设计了一种 可训练的 edge-dropping手段来实例化这个方法。
分子性能回归,分类,社交网络分类。

1. 介绍

介绍了GNN。阐明标签花费,并且像药物和分子需要活体实验才可以取得标签,因此自监督GNN兴起。
对于自监督GNN,设计学习的理论很重要,决定了gnn能够捕获什么信息,这种信息会影响下游任务性能。GAE那些重构邻接矩阵过度强调近邻,忽略了结构信息。然而,图对比学习兴起了,利用信息最大化理论infomax来最大化图或节点在不同视角下的一致性。
然而,indomax可能是risky的,使得encoder捕获了和下游任务不相关的多余信息。多余的信息满足infomax的理论,但是表征脆弱且下游任务恶化。因此,使得作者想起来另外的理论:information bottleneck。 和infomax相反,IB要求encoder捕获最小化但充分的信息对于下游任务。即: 最小化原始信息,同时最大化和下游任务相关的信息。 因为 冗余信息被移除,因此,表征更加鲁棒,更加可以迁移。但是,IB需要下游任务的知识,这些下游任务知识无法获得。
本文是 在无法得知下游任务知识的情况下,移除多余信息。 提出的方法使得GCL和对抗训练结合,关注于图级任务,但同样可以迁移到节点级。
包含两个部分:1. 一个encoder去最大化infomax在原始图和增强视角之间。 2. 一个GNN-based的 augmenter,目的在于优化这个 增强策略, 来减少冗余信息。有理论解释,本文的方法,当这个augmenter带有某种正则进行空间搜索,能够产生下游任务信息的下界(给任务最小的信息),同时保证对于原始图的信息的上界(不要多给信息)。本文给了一个实例化:augmenter采用task不可知的增强策略将会学到一个 非整体哎的 edgedrop概率 来学到图增强。

2.Notations and Preliminaries

介绍图级任务,介绍MPNN。介绍infomax:encoder最大化graph和表征间的互信息(相关性)。
这里还提到了和CNN作为encoder在cv对比不同的是,GNN不是单射的,不能期望其识别所有graph,这是GIN等weisifier-leman测试考虑的问题

3. Adversarial Graph Contrastive Learning

3.1 Theoretical Motivation and Formulation of AD-GCL

研究表明采用infomax捕获的信息,很多余,其与标签无关,因此对分类什么的没帮助。
作者这里在ogbg-molbace上进行实验,两个encoder都是infomax,但其中一个用了随机标签进行监督。因为两个encoder都是符合infomax的目标函数,但是随机标签性能下降,这说明这个理论还是不能够保证 encoder 得到的表征能够去 捕获类别相关的信息。 因为如果可以 就不会受到随机标签影响?
在这里插入图片描述
这使得让人思考好的表征是什么?作者考虑IB理论:公式4 第二项是和infomax相反的,意味着最小化这个信息,但是第一项要求最大化 表征和 下游任务(Y)之间的信息。这样就移除了不必要的冗余信息。
在这里插入图片描述
但是自监督没有标签没有下游任务的先验信息。本文提出使用 对抗训练来避免捕获多余信息。一方面 采用数据增强来干扰原始图,减少信息。另一方面采用infomax最大化剩余的这些信息。

GDA-GCL:就是 graph aug12,进行最大化互信息,但这个增强方法都是预定义的。
在这里插入图片描述
本文的 AD-GCL 不同于他们的,这里是min T。max f。就是 当t(G)和原来的G很不同时,encoder还是能够最大化MI。
在这里插入图片描述
底下是说明 因为GNN被1-WL限制,不是单射,因此 这里定义 图等价==不能被1-WL分辨
在这里插入图片描述
定理1 中的第一点 和GIB的优化目标类似,保证上界。 第二点保证一个下界
在这里插入图片描述

3.2 实例化一个

AD-GCL: 1.优化encoder 最大化infomax。 2. 优化GDA T(G),来最小化互信息。
本文采用edge dropping,作者说 node drop 或者加边,特征mask这些GDA 都符合 AD-GCL理论,但是实验中这么一个简单的方法就达到了好的效果。(噗) 原因:丢边符合定理1的陈述2, 好的GDA应该保证一些和下游任务相关的信息。作者说下游一般是 分子分类,丢边不会改变子图结构因此会有效果。这个和GraphCL的相反啊,图级预测 边轻微改了 就不行了。对于社交网络等节点级的有效,这个合理。

理论结束:看看怎么实现吧~ 通过这个 we的概率 从伯努利分布中 抽样丢边。 之前的GCA 等都是 预设,或者是根据 图的属性计算出这个 概率。 
本文通过一个额外的GNN,augmenter 。通过拼接两个节点输入到mlp算出we。pe是通过we重参数计算出来

在这里插入图片描述

	定理1的第二条说明 一个好的GDA应该和下游任务相关。 为了不让丢弃太多,加了一个正则项

在这里插入图片描述

最终实现: 采用infonce来实现GIB的 第一项infomax--max。。
min就是通过额外的训练一个augmenter来丢边(正则项是防止丢太多)

在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值