CIKM 2022 Position-aware Structure Learning for Graph Topology-imbalance by Relieving Under-reaching

Position-aware Structure Learning for Graph Topology-imbalance by Relieving Under-reaching and Over-squashing

拓扑不平衡问题是由标记节点的拓扑位置不均匀引起的图的不平衡问题,会严重影响图神经网络的性能。拓扑不平衡意味着什么以及如何衡量其对图学习的影响仍然没有被探索。本文从监督信息分布的全局角度,从欠达到和过度挤压的角度,对拓扑不平衡提供了一种新的理解,这激发了两个定量指标作为测量。基于上述分析,提出了一种新的位置感知图结构学习框架PASTEL,该框架直接优化了信息传播路径,从本质上解决了拓扑不平衡问题。本文的关键见解是增强同一类内节点的连通性,以获得更多的监督信息,从而缓解不足和过度抑制的现象。具体而言,设计了一种基于锚点的位置编码机制,更好地融合了相对拓扑位置,并通过最大化标签影响来增强类内归纳偏差。进一步提出一种基于类的冲突度量作为边的权重,有利于不同节点类的分离。广泛的实验表明,PASTEL在增强GNNs在不同数据标注场景中的能力方面具有优越的潜力和适应性。

引言

由于图结构的不对称和不均匀,gnn在图上的学习存在一个特殊的不平衡问题,即拓扑不平衡问题。[7]是由标记节点在拓扑空间中位置分布不均匀引起的,在现实应用中,由于数据可用性和标记成本等因素,这是不可避免的。例如,在社交网络中,我们可能只拥有某个局部社区内的一小部分用户的信息,从而导致标记节点位置的严重不平衡。尽管近年来图上的不平衡学习吸引了许多研究兴趣,但大多数研究都集中在类不平衡问题[30,46],即每个类别的标记节点数量不平衡。拓扑不平衡问题是最近提出的,仍未得到充分探索。现有的工作ReNode[7]从标签传播的角度理解了拓扑不平衡问题,并提出了一种样本重加权方法。然而,ReNode基于同质性假设将节点拓扑边界作为决策边界,这在现实世界的图数据中并不适用。强假设导致ReNode的泛化能力较差,性能不理想(参见5.2.1节)。还有两个问题。(1)为什么拓扑不平衡会影响图表示学习的性能?(2)什么样的图容易出现拓扑不平衡?为解决上述两个问题,由于图连接复杂且大多数节点的类别标签未知,如何度量已标记节点的影响力是处理拓扑不平衡问题的关键挑战。
在这里插入图片描述
拓扑不平衡的新认识。 本文从监督信息分布的全局角度,从欠延伸(under reaching)和过度抑制(over squashing)的角度,对拓扑不平衡问题提供了新的理解:(1)欠延伸:标记节点的影响力随着拓扑距离[3]的增加而衰减,导致远离标记节点的节点缺乏监督信息。在图1中,节点 v a v_a va无法在GNN模型的感受野内到达有价值的标记节点 v c v_c vc,导致其接收到的信息量有限。 (2)过度抑制:有价值的标记节点的监督信息在通过狭窄路径时与其他无用信息一起被抑制。在图1中, v b v_b vb v a v_a va有价值的监督信息被压缩为一个向量,与属于其他类别的许多节点的信息一起,导致 v a v_a va接收到的监督信息质量较差。然后引入两个指标(延伸系数和抑制系数)来定量分析学习性能、标签位置和图结构属性之间的关系。进一步得出结论,更好的可达性和更低的对标记节点的抑制,会导致GNN模型更好的分类性能。

现在的工作。 根据上述分析,我们提出一种位置感知结构学习方法PASTEL,直接优化信息传播路径,从本质上解决了拓扑不平衡问题。PASTEL的关键见解是使同一类内的节点更紧密地相互连接,以获得更多的监督信息。设计了一种新的基于锚点的位置编码机制来捕获节点之间的相对位置,并将位置信息融入结构学习。然后,设计了一种基于群组PageRank的类内冲突度量方法,该方法度量每个类中已标记节点的影响力,并通过调整边权重来提高类内连通性;主要贡献如下:

  • 本文从监督信息分布不足和过度挤压的角度对拓扑不平衡问题提供了新的理解,并为它们提供了两个新的量化指标。
  • 使用所提出的位置编码和类内冲突度量,PASTEL可以更好地建模节点对之间的关系,并通过最大化标签影响来增强类内归纳偏差。
  • 实验结果表明,所提出的PASTEL模型具有优越的有效性,确实增强了GNN模型的野外外推能力。

相关工作

不平衡学习

不平衡分类问题引起了广泛的研究关注。大多数现有工作集中在类别不平衡问题上,其中模型性能由大多数类主宰。类不平衡学习方法大致可以分为数据级重采样和算法级重加权两类。重采样方法在数据选择阶段重新采样或增加数据以平衡每个类的数据数量。重加权方法在训练阶段根据数据的数量对不同的数据样本调整不同的权重。

图形结构学习

图结构学习学习了一种优化的表示学习的图形结构,其中大多数旨在提高GNN模型的鲁棒性。也有一些作品,利用结构学习来提高图形表示质量。至于过度压缩问题,将不同的权重分配给与同一类两个节点连接的边缘,以获得更好的陈述。然而,仍未能解决不足的问题。SDRF算法根据Ricci曲率进行边重布线,仅考虑拓扑性质,解决了过压边问题。

现有结构学习工作的多重测量用于建模节点关系,包括节点特征、节点度、节点编码和边缘属性。节点位置在产生判别表征的过程中起着重要的作用,在结构学习中很少被考虑。在此基础上,我们提出了图形拓扑不平衡问题的结构学习策略,并引入了一个定位器框架,以更好地捕获节点的基本关系。

架构模型

在本节中,我们从到达不足和过度挤压的角度对拓扑不平衡问题进行了新的理解。对它们之间的关系进行定量分析,以回答两个问题:Q1:为什么拓扑不平衡会影响图表示学习的性能?Q2:什么样的图容易受到拓扑不平衡的影响?

理解拓扑不平衡伸展不足和过度挤压

在gnn中,节点表示是通过聚合有价值的邻居的信息来学习的。节点接收信息的数量和质量决定了其表示的表现力。我们认为标记节点位置不平衡会影响gnn的性能,原因有两个:(1)欠覆盖:标记节点的影响力随着拓扑距离的增加而衰减,导致远离标记节点的节点缺乏监督信息。当节点无法在模型感受野内到达足够有价值的标记节点时,其接收到的信息量就会受到限制。(2)过度压缩:GNNs的感受野呈指数级增长,所有信息都被压缩为固定长度的向量。在通过狭窄路径时,有价值的标记节点的监督信息与其他无用信息一起被挤压。

定量分析

为了定量分析网络拓扑不平衡问题,提出了可达性和压缩性两个度量指标。首先,我们根据最短路径定义了一个可达系数,该系数确定了获取监督信息所需的最小层数:

定义1(到达系数)。给定图G和标记节点集合V𝐿,G的可达系数𝑅𝐶是从无标记节点到其对应类的标记节点的最短路径的平均长度:
在这里插入图片描述
V, V𝐿𝑦𝑖表示节点𝐿的标签是𝑦𝑖,P𝑠𝑝(𝑣𝑖,𝑣𝑗)表示之间的最短路径𝑣𝑖和𝑣𝑗,| P𝑠𝑝(𝑣𝑖,𝑣𝑗)|表示它的长度,和𝐷G直径图g .专门为独立𝑣𝑖和𝑣𝑗,我们作为𝐷G最短路径的长度。

到达系数反映了gnn将有价值的信息传递到未标记节点的距离。需要注意的是,𝑅. 00∈[0,1],𝑅. 00越大,可达性越好。

对于过度压缩的定量度量,我们使用Ricci曲率定义了一个压缩系数,从几何角度对其进行表述。Ricci曲率反映了一条边的两个端点的拓扑性质的变化,其中负的𝑅𝑖𝑐(𝑣𝑖,𝑣𝑗)表示该边在局部表现为捷径或桥接,正的𝑅𝑖𝑐(𝑣𝑖,𝑣𝑗)表示局部在𝑣𝑖和𝑣𝑗的邻域中有更多的三角形。

定义2(压缩系数)给定一个图G, G的压扁系数𝑆𝐶是从无标签节点到对应类别中有标签节点的最短路径上边的平均Ricci曲率:
在这里插入图片描述
其中N𝑦𝑖(𝑣𝑖)为类𝑦𝑖中可以到达𝑣𝑖的已标记节点,𝑅𝑖𝑐(·,·)为Ricci曲率,|P𝑠𝑝(𝑣𝑖,𝑣𝑗)|为𝑣𝑖到之间的最短路径长度。
我们在这里利用奥利维-里奇曲率[28]作为𝑅𝑖𝑐(·,·):
在这里插入图片描述
在𝑊𝑎𝑠𝑠𝑒𝑟𝑠𝑡𝑒𝑖𝑛(··)是瓦瑟斯坦距离,𝑑𝑔𝑒𝑜(··)是测地线距离函数,和𝑚𝑎𝑠𝑠𝑘是节点的质量分布𝑣𝑘。请注意𝑆𝐶可以是正的或负的,更大的𝑆𝐶意味着更低的挤压,因为环结构对信息共享更友好。

在图2和图3中,我们展示了到达系数𝑅𝐶,压缩系数𝑆𝐶和分类精度之间的关系。精度越高,对应的散射越暗、越大。首先,分析了GCN在相同图结构但标记节点不同的情况下的性能。在图2中,我们通过随机块模型(SBM)[19]生成一个具有4个类和3000个节点的合成图。我们随机采样一些节点作为标记节点10次,分散图2中的分类精度。我们可以观察到,即使对于相同的图结构,标记节点的位置差异可能会导致精度差异高达15.42%。到达系数、压缩系数与模型性能之间存在显著的正相关关系。

在这里插入图片描述
分析了GCN在使用相同标记节点但在不同图结构上进行训练时的性能。在图3中,我们通过控制SBM模型中社区之间的边概率,将标记节点设置为相同的,并在它们之间生成不同的结构。我们可以观察到,在相同的监督信息下,由于图结构的差异,在准确率上有高达26.26%的差异。到达系数、压缩系数与模型性能之间也存在显著的正相关关系。当图中同类节点之间呈现出更好的社区结构时,可以更好地学习节点表示。

因此,我们得出以下结论:(1)拓扑不平衡以欠达和过度挤压的方式损害图学习的性能。(2)提出的两个量化指标可以有效地反映拓扑不平衡程度。可达性较差(即𝑅𝐶较小)和挤压性较强(即𝑆𝐶较小)的图更容易受到拓扑失衡的影响。(3)优化图结构可以有效解决拓扑不平衡问题。上述结论为设计PASTEL框架提供了指导,即通过学习具有更好的可达性和更低的挤压性的结构来平衡监督信息分布。

缓解拓扑不平衡

在本节中,我们引入位置感知的结构学习框架PASTEL,直接优化信息传播路径,从本质上解决拓扑不平衡问题。根据3.2节中的分析,PASTEL旨在学习一个更好的结构,增加每个类内标签的影响,从而缓解不足和过度压缩现象。粉彩的整体架构如图4所示。
在这里插入图片描述

位置感知结构学习

为了形成具有更好类内连通性的结构,使用基于锚点的位置编码方法来捕获未标记节点到标记节点之间的拓扑距离。然后综合特征信息和拓扑信息的优点来学习细化的结构;

基于锚点的位置编码。受transformer中位置的启发[36,43],使用基于锚点的位置编码方法来捕获未标记节点相对于图中所有标记节点的相对位置。由于我们专注于最大化同一类内无标记节点和有标记节点之间的可达性,我们直接将有标记节点集V𝐿分成𝐶锚集{V𝐿1,V𝐿2,···,V𝐿𝐶},其中每个子集V𝐿𝑐表示标签为𝑐的有标记节点。基于类别的锚节点集有助于区分来自不同类别的信息,而不是像[49]那样将所有锚节点都视为相同而忽略类间差异。具体来说,对于任何节点𝑣𝑖,我们考虑一个函数𝜙(·,·),它衡量𝑣𝑖和图g中锚集之间的位置关系。该函数可以由图中节点之间的连通性定义。
在这里插入图片描述
其中𝜙(𝑣𝑖,V𝐿𝑐)是由图中节点𝑣𝑖和锚集V𝐿𝑐之间的连通性定义的位置编码函数。这里我们选择𝜙(𝑣𝑖,V𝐿𝑐)作为𝑣𝑖和V𝐿𝑐中的节点之间最短路径的平均长度,如果两个节点是连接的:

在这里插入图片描述
其中N𝑐(𝑣𝑖)为V𝐿𝑐中与𝑣𝑖相连的节点,|P𝑠𝑝(𝑣𝑖,𝑣𝑗)为𝑣𝑖与𝑣𝑗之间的最短路径长度。然后我们将位置编码转换到𝑑0维度空间:
在这里插入图片描述
其中W𝜙是一个可训练的向量。如果两个节点到锚点集的最短路径相似,则它们的位置编码相似。位置感知的度量学习。在获得位置编码后,使用一个同时考虑节点特征信息和基于位置的相似性的度量函数来衡量边存在的可能性。PASTEL与各种相似度度量函数无关,这里我们选择广泛使用的多头余弦相似度函数:
在这里插入图片描述
其中𝑚为头的个数,Wℎ为ℎ-第th个头的权重矩阵,z𝑖为节点𝑣𝑖的表示向量,||表示连接。位置感知结构学习的有效性在5.3.1节中进行了评估。

阶级冲突量表

我们的目标是增加节点之间的类内连通性,从而增加它们接收到的监督信息及其彼此之间的影响。本文提出一种类冲突度量,以指导哪些节点应该连接得更紧密。根据gnn与标签传播的内在联系[7,45],使用PageRank组[6]作为节点之间的冲突度量。组PageRank (Group PageRank, GPR)将传统的PageRank[29]扩展为标签感知的PageRank版本,用于度量每个类别中已标记节点的监督信息。具体来说,对于类𝑐∈{1,2,···,𝐶},对应的GPR矩阵为

用优化结构学习

使用上述结构学习策略,我们可以获得一个具有最大类内连通性的位置感知邻接a < 0.05:

在这里插入图片描述

实验

在这里插入图片描述

结论

针对图拓扑不平衡问题,提出了一种新的框架PASTEL。本文从欠达和过度挤压的角度对拓扑不平衡提供了一种新的理解和两个定量分析指标,回答了拓扑不平衡如何影响GNN的性能以及哪些图易受其影响的问题。PASTEL设计了一种基于锚点的位置编码机制和类冲突度量,以获得具有更好的类内连通性的结构。综合实验证明了粉彩的潜力和适应性能力。一个有趣的未来方向是将所提出的两个量化指标纳入学习过程中,以更直接地解决拓扑不平衡问题。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值