论文标题:Improving Augmentation Consistency for Graph Contrastive Learning
论文链接:Improving Augmentation Consistency for Graph Contrastive Learning - ScienceDirect
目录
四、方法详解 (ConGCL: A new consistent GCL method)
2 怎么得到上下文子图表示(Context Subgraph Representations)
一、标题解读
通俗化来说,就是提高经过数据增强之后的两个视图中对应节点的一致性,分为两个方面:①缩小两个对应节点之间差异;②对齐(视图一中的节点和负例节点的距离)与(视图二中对应的节点和同一负例节点的距离)。最后实现图节点分类。
二、背景问题
现有图数据增强的方法中,增强视图中的节点很难从锚视图中继承图的语义和结构特性,这可能会损害增强视图中的节点一致性。
三、提出的方法
本文了ConGCL,首先考虑节点语义和结构信息,以更好地挖掘节点的潜在一致性关系。然后设计一个一致性改进损失函数,该损失采用了一个自适应的α -散度来维护随机增广方案下正节点对的增强一致性协议。
四、方法详解 (ConGCL: A new consistent GCL method)
1 Context entailment
1.1 语义关系
图数据增强后得到的两个视图经过图嵌入(两层GCN)后,两个对应的节点的向量表示分别为u,v。他们的semantic relationship表示为他们的余弦相似度:
1.2 结构关系
定义为节点u的上下文子图表示,即由节点u的前h个相邻节点构成。(具体构成方法后面详讲)则两个节点u和v的structural relationship为和的相似性,公式为:
综合语义和结构信息,两个对应节点u和v之间的相似性为:
其中γ是平衡因子(超参数)。
2 怎么得到上下文子图表示(Context Subgraph Representations)
答:子图采样器,下面是它的三步骤。
步骤一:定义一个重要性系数矩阵M,表示邻居节点的重要性,表示节点对邻居节点的重要性系数。采用个性化PageRank算法得到M,
其中,I为单位矩阵,表示列标准化邻接矩阵。
步骤二:用节点的前h(超参数,实验中取10)个重要的邻居节点构成节点u的上下文子图表示(Context Subgraph Representation)。
步骤三:经过一个读出函数(比如平均池化)就得到。
总结:先找到对节点u最重要的前h个邻居节点,将其构成子图,再进行池化得到子图表示。
3 怎样增强一致性
答:设计损失函数,采用自适应α散度来了解一致性。
3.1 α散度
α散度用来表示两个两个分布之间的差异。这种差异可以看作是使用一个概率分布来编码数据而不是另一个概率分布所造成的损失。对于α=1,α散度退化为KL散度。在N个分量上的两个离散分布p和q上的α散度为
其中,α表示除0和1之外的实数。.
3.2 自适应α散度
其中和是超参,由于α 散度惩罚不同类型差异的灵活性,我们采用自适应α散度来缓解α +为正、α -为负的两个分布之间差异的高估和低估问题。(原文为:an adaptive 𝛼-divergence is adopted to alleviate the over-estimation and under-estimation issue of the discrepancy between two distributions with a positive 𝛼+ together with a negative 𝛼−。这段话我还不太理解)
在两个增强视图中,负例集合是除 节点及其子图节点和节点及其子图节点 之外的所有节点,即
其中,
因此,通过计算与中每个节点表示之间的相似度,与中每个节点表示之间的相似度,可以得到两个相似度分布d1和d2。然后,我们对d1(i)和d2(i)进行相似性分布对齐操作,即通过自适应α 散度来最小化d1(i)和d2(i)的差异。然后提出了N个正节点对的一致性改进损失:
4 最终的损失函数
最终的损失函数包含两部分。
其中 算和分别来自连个增强视图,sim(*,*)表示结合了语义和结构的相似性。是超参。
最终的损失函数为
其中,N表示正节点对的总数,
5 算法框架
五、总结
本文提出了GCL中的增强不一致性问题,即在随机增强中产生的不一致会阻碍增强视图从原始图中继承潜在属性的能力。针对此问题,本文首先提出节点语义和结构的隐式属性可以促进挖掘节点相似性和一致性关系。此外,考虑到潜在的不一致性增强对节点一致性带来的负面影响,在模型训练过程中,我们采用一致性提升损失来维持不同视图间正节点对的一致性。