论文阅读“AutoGCL: Automated Graph Contrastive Learning viaLearnable View Generators”(AAAI2022)

论文标题

AutoGCL: Automated Graph Contrastive Learning via  Learnable View Generators

论文作者、链接

作者:Yin, Yihang and Wang, Qingzhong and Huang, Siyu and Xiong, Haoyi and Zhang, Xiang

链接:https://arxiv.org/abs/2109.10259

代码:https://github.com/Somedaywilldo/AutoGCL

链接为arxiv的版本,本文已经被AAAI接收


Introduction逻辑(论文动机&现有工作存在的问题)

图神经网络GNN——现有的GNN往往是端到端的有监督模式——出现了无监督式的策略——对比学习的兴起(它们通常不能针对原始图的语义生成视图,也不能针对特定的图学习任务调整增强策略)——由于图像语义在各种变换下的不变性,图像数据增强被广泛用于生成对比视图——然而,在这里使用图谱数据增广可能是无效的,因为图上的转换可能会严重破坏其语义和特征——本文AutoGCL

论文核心创新点

提出了一个图对比学习框架,含有可学习的图谱视图生成器

联合训练策略


相关工作

图神经网络

将一个图谱记为g=(V, E),其中结点特征为x_vv \in V。本文聚焦于图分类任务,通过图神经网(GNN)。GNN通过聚合结点x_v及其邻居来生成结点级嵌入h_v。GNN的每一层都是一次聚合的迭代,在第k层之后嵌入的节点将信息聚合到其k-hop邻域内。第k层的GNN公式表示如下:

 对于下游任务诸如图分类,图谱级特征z_g通过READOUT函数和MLP获得,公式如下:

 本文使用了两种GNN作为主干,GIN和ResGCN

图神经网络的预训练

图迁移学习的好处可能是有限的,并导致负迁移,因为来自不同领域的图实际上在结构、规模和节点/边缘属性方面存在很大差异。因此,以下许多工作开始探索另一种方法,即针对gnn预训练的对比学习

对比学习

可学习的数据增广

比起现有的对比学习模型,本文方法可以从原始图谱保存更多的语义结构信息。


论文方法

如何设计一个好的图视图生成器

一个理想的用于数据扩展和对比学习的图视图生成器应该满足以下特性:
(1)同时支持增广图拓扑结构以及结点特征。
(2)具有标签保持性,即增强图应保持原图的语义信息。
(3)适应不同的数据分布,可扩展到大型图。
(4)为对比多视图训练前提供足够的方差。
(5)它是端到端可微的,对于反向传播(BP)梯度快速计算足够有效。

本文的视图生成器包括:结点丢弃和特征掩膜,但又比这两种方法更为的灵活。

可学习的图谱视图生成器

 视图生成器如上图所示。首先使用GIN来从结点特征获得结点嵌入。对于每一个结点,使用结点的嵌入结点特征来预测选择一个数据增广方法的概率。结点数据增广的方法包括:丢弃,保持和掩膜。本文使用gumbel-softamx从这些概率中采样,然后给每个节点分配一个增强操作。如果采用k个GIN层作为嵌入层,那么将h_v^{(k)}记为结点v在第k层的隐藏状态,a^{(k)}_v记为结点v在第k层的嵌入。对于每一个结点v都有结点特征x_v,增广选择f_v以及应用数据增广的函数Aug(x,f)。结点v的增广特征x_v^\prime通过以下公式获得:

将最后一层k的维度设为每个节点的可能增广次数。a^{(k)}_v记作选择某种数据增广的概率。f_v是通过gumbel-softmax得到的分布中采集的one-hot向量。增广应用函数Aug(x_v,f_v)通过不同的操作结合结点x_vf_v。对于增广后的图谱,边缘通过对所有的v \in V使用操作f_v进行更新,当结点被移除时,边也被删除。由于边缘只是节点特征聚合的指导,不参与梯度计算,因此不需要以可微的方式更新。因此,视图生成器是端到端可微的。GIN嵌入层和gumbel-softmax可以有效地扩展到更大的图数据集和更多的扩展选择。

 对比预训练策略

 因为对比学习需要多视图,本文使用两个视图生成器和一个分类器。一个对比学习的好的视图一个最大化标签依赖的信息同时最小化互信息。

损失函数定义

总共含有三个损失函数:对比损失,相似性损失和分类损失。

对于对比损失,使用正则化温度参数以及交叉熵损失。相似性函数sim(z_1,z_2)定义如下:

 假设有一个数据batch由 N个图谱组成。通过数据增广后得到2N个图谱视图,将同一个图谱增广后得到的两个图谱作为正样本对。用1_{[k \neq i]} \in\{0,1\}作为指示函数。将正样本对(i,j)的对比损失记作\ell(i, j),一个batch的对比损失为\mathcal{L}_{cl},温度参数为\tau,则有:

 这个相似性损失用来最小化视图之间的互信息。在视图生成的过程中,有一个采样的状态矩阵S,表示每个节点对应的增强操作(见图1)。对于图谱G,将增广的视图结果记作A_1,A_2,则相似性损失\mathcal{L}_{sim}为:

对于分类损失,直接使用交叉熵衡量。对于一个图样本g其类标为y,将数据增广结果记为g_1,g_2并且分类器记为F,则分类损失\mathcal{L}_{cls}为:

在半监督训练前任务中使用\mathcal{L}_{cls}来鼓励视图生成器生成保留标签的增强。

简单的训练策略

对于无监督学习和迁移学习任务,使用一个简单的训练策略。因为现阶段只知道预训练过程中保存的标签,因此\mathcal{L}_{sim}将不会被使用,因为这个损失仅仅鼓励视图变得不同,这是没有意义的,会生成无用深知有害的样本视图。本文将只训练视图生成器以及分类器,来最小化\mathcal{L}_{cl}

本文注意到生成的视图的质量不等同于原始数据的质量。在\mathcal{L}_{cl}最小化的过程中,不仅仅是两个增广视图之间最小化,而且对原始数据也进行最小化。通过在嵌入空间中使得原始数据以及增广之间的距离缩小,鼓励视图生成器保存与标签相关的信息。具体细节在算法1中描述。

联合训练策略

针对半监督学习,本文提出了一个联合训练策略,交替进行对比学习和有监督学习策略。这种情况下的效果比简单训练策略要好。

在无监督训练阶段,先固定一个视图生成器,然后通过对比学习训练分类器。在有监督学习,使用有标签的数据同时训练视图生成器和分类器。通过同时优化\mathcal{L}_{sim}\mathcal{L}_{cls},这两个视图生成器被鼓励生成保留标签的增强,但视图之间彼此足够不同。无监督训练阶段和有监督训练阶段交替重复。

作者发现在图对比学习中,预训练/精调策略会在精调阶段出现过拟合情况。而将\mathcal{L}_{cl}最小化过多可能会对精调阶段产生负面影响。作者推测,将\mathcal{L}_{cl}最小化太多会使靠近决策边界的数据点彼此过于靠近,从而使分类器更难将它们分离。因为无论如何训练GNN分类器,由于不同类的数据分布之间的自然重叠,仍然存在误分类的样本。但是在对比训练前的状态下,分类器并不知道被拉到一起的样本是否真的来自同一个类。

因此,本文的半监督学习策略是:交替最小化\mathcal{L}_{cl}\mathcal{L}_{cls}+\mathcal{L}_{cls}。从而使两个视图生成器在保持标签相关信息的同时减少互信息。然而,由于我们只有一小部分标记数据来训练视图生成器,所以使用原始数据仍然是有益的,就像简单训练策略一样。具体细节在算法2中描述。


消融实验设计

针对两个视图生成器的消融

训练策略的消融

超参的消融


一句话总结

感觉框架不是很新,但是这个训练策略还是蛮新颖的,不过看了一遍下来,我给忘了分类器是分的什么类了?追加:分类器是半监督学习的时候用的,需要有标签的数据

论文好句摘抄(个人向)

(1)have shown impressive representational power in various domains

(2)Blessed by the invariance of image semantics under various transformation, image data augmentation has been widely used to generative contrastive views

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值