#论文题目:【图对比学习 难样本挖掘】ProGCL: Rethinking Hard Negative Mining in Graph Contrastive Learning(ProGCL:重新思考图对比学习中的难样本挖掘)
#论文地址:https://proceedings.mlr.press/v162/xia22b/xia22b.pdf
#论文源码开源地址:https://github.com/junxia97/ProGCL
#论文所属会议:ICML 2022
#论文所属单位:浙江大学、西湖大学
一、导读
本篇文章作者发现现有的其他领域的难负样本挖掘技术并不能很好地提高图对比学习的表现,并对这一现象进行深入探究,发现可以归因于图神经网络的信息传递机制。此外作者提出了一种挖掘图网络中的难样本对的方法。此方法原则上可以替换任何一个图对比学习中计算难样本对的模块,实验表明,此方法有着更为显著的效能提升。
二、总体思路
图对比学习在无监督节点表征学习任务上取得了巨大成功,其基本的框架如上图所示,图数据经过两种增广后得到两个视角的图数据和。我们把不同视角下同一个节点称为正样本对,任意两个不同样本称为负样本对。假设一对正样本对为,对比损失如下:
作者提出ProGCL方法的基线就是根据上述两式(尤其是第一个式子)进行改进而成。
三、总体思路
作者提出,如果像其他领域那样仅仅把相似度做为衡量负样本难易程度的指标,在图对比学习中大多数的难负样本是潜在的假负样本(与锚点样本同一类, Figure 1)。为了弥补这一缺陷,作者利用混合分布(非对称分布,可以更好的适应样本分布方法)来估计负样本为真负样本的概率,并设计了两种方案(即 ProGCL-weight 和 ProGCL-mix)来提高 GCL 的性能。
此外,为了探究消息传递机制在图对比学习中的作用,作者将图对比学习中的GCN替换为MLP(即去掉信息传递机制),发现负样本的分布呈现与其他领域相似的单峰分布。这说明消息传递机制是造成上述现象的本质原因。但是,直接去掉消息传递机制又不能很好地利用图的结构信息。图神经网络的消息传递机制会拉近邻近节点的表征,即增大很多对假锚点样本与假负样本的相似度。进一步导致图对比学习的负样本的分布呈现双峰分布。随后,作者证明随着信息传递的进行,任意两个节点间的相似度都会大于他们的初始相似度。具体参考原文。
四、方法-ProGCL
上述分析表明相似度不能做为衡量图对比学习中负样本难易程度的指标,因此作者想在衡量图对比学习中负样本难易程度时考虑负样本为真负样本的概率。作者利用混合分布来估计该概率,但是常用的高斯混合只能拟合对称的分布,因此,作者利用了更加灵活的Beta混合分布,然后利用EM算法估计负样本为真的概率。EM算法估计Beta混合分布的参数的步骤如下:
- E步
- M步
由此,根据样本间相似度就能估计出负样本为真的概率。此概率与相似度一起构成了一个新的衡量图对比学习中负样本难易程度的指标:
有了以上的新度量,作者设计了两种方案来改进图对比学习中的难负样本挖掘:
(一)ProGCL-weight
用新指标负样本进行加权
最终的损失函数为:
(二)ProGCL-mix
该方法主要目的是合成更多的负样本。
一方面,作者用上面提出的新度量选择负样本进行mixup,这能让选到的负样本为真的概率更高也能使选到的负样本更可能是难负样本。(Eq10就是
W
W
W(i, k)的计算公式)
另一方面,在进行mixup时,用来mix的系数也是由估计出的负样本为真的概率决定的。公式如下: