[论文笔记] 身份感知图神经网络ID-GNN

Information

论文:Identity-aware Graph Neural Networks(AAAI 2021)
code:http://snap.stanford.edu/idgnn

摘要

基于消息传递机制的图神经网络(GNNs)为关系数据(即图数据)提供了一个强大的建模框架。然而,现有GNN的表达能力上限是1-Weisfeiler-Lehman(1-WL)图同构检验,这意味着普通GNN不能预测节点聚类系数和最短路径距离,也不能区分不同的正则图

本文提出了一类消息传递GNNs,即Identity-aware GraphNeural Networks(ID-GNNs),它比1-WL测试具有更强大的表达能力,ID-GNN为现有GNN的局限性提供了一个强大的解决方案。 ID-GNN通过在消息传递过程中归纳地(inductively)考虑节点的身份,扩展了现有的GNN体系结构。为了获得一个给定的节点的嵌入,ID-GNN首先提取以该节点为中心的ego网络(即自我网络),然后进行多轮的异构消息传递,在自我网络的中心节点上应用与其他节点不同的参数(即自我网络的中心节点与其他节点的聚合函数不为同一个)。 同时论文还提出了一个更快的ID-GNN简化版本,它将节点身份信息作为增强的节点特征注入节点中。另外,ID-GNN的两个版本都代表了消息传递GNN的通用扩展(即消息传递GNN都可改为对应的ID-GNN版本)。

实验表明,将现有GNN转换为ID-GNN在具有挑战性的节点、边和图级别属性预测任务上平均可以提高40%的准确率;节点和图分类基准的准确率提高了3%;在实际的链路预测任务中,ROC-AUC提高了15%。此外,ID GNN与其他特定于任务的图神经网络相比,表现出更好的或相当的性能。

引言

图神经网络(GNNs)通过使用非线性变换重复聚合来自局部节点的信息来学习节点嵌入(Battagliaet al.2018)。

GNN的缺点

尽管GNNs代表了一种强大的学习范式,但已有研究表明,现有GNNs的表达能力的上限是:1-Weisfeiler-Lehman(1-WL)检验(Xuet al.2019)。1-WL可参考知乎。具体地说,两个具有不同邻域结构的节点可能拥有相同的计算图,从而出现难以区分的现象。这里的计算图指的是生成节点嵌入的过程。

类似上述的例子有很多(如图1):在节点分类任务中,现有的GNN无法区分不同大小规则图中的节点;在链路预测任务中,不能区分邻域结构相同但到源节点最短路径距离不同的候选节点;在图分类任务中,它们不能区分正则图。
虽然可以使用特定于任务的特征增强可缓解这些上述的缺陷,但在不同的任务发现有意义的特征并不是通用的,并且可能会妨碍GNNs的归纳(inductive)能力。
在这里插入图片描述

ID-GNN模型概述:假设全部节点没有可区分的特征(即节点特征相同),现同时考虑节点、边和图级任务三大类任务。然而现有的GNN不管其深度如何,最终获得节点A或节点B的嵌入都相同,因为对于所有的任务来说,两个节点计算图都是相同的(中间一行)。而ID-GNN的标色计算图可以清晰地区分标签A和标签B的节点,因为在整个任务中计算图不再相同。

研究现状

最近提出的一些方法旨在克服现有GNNs中的此类限制。对于图分类任务,一些论文提出了比1-WL测试更具表现力的新架构。对于链路级任务,为了克服现有GNN的局限性,提出了P-GNN。虽然这些方法有着丰富的理论基础,但它们通常是针对特定任务的(无论是图还是边级别),并且上述解决方案在计算或实现中往往会增加复杂性。与之对应的,消息传递GNN在节点级、链接级和图级任务上具有很高的预测性能,而且实现起来更简单高效。因此,使消息传递GNN的表达能力突破1-WL测试以克服当前GNN的局限性,是一个非常重要的问题。

本文方案

本文提出了身份感知图神经网络(ID-GNN),这是一类基于消息传递的GNN,其表达能力超过了1-WL test。ID-GNN提供了一个通用的扩展,使现有的信息传递GNN模型更具表现力。

ID-GNN通过在消息传递过程中归纳地(inductively)考虑每个节点的身份来获取每个节点嵌入。该方法不同于使用one-hot编码标记每个节点的方法,后者具有转导性(transductive,不能推广到未知的图)。如图1所示,论文使用一种归纳身份着色技术(inductive identity coloring)来区分中心节点(计算图中的根节点)和计算图中的局部邻域内的其他节点。身份信息允许ID-GNN区分节点、边和图级任务中相同的计算图,这种方法克服了前面讨论的限制。

本文提出了ID-GNN共有两个版本。作为一种通用方法,身份信息是通过多轮执行异构消息传递来合并的。具体来说,为了获取给定的节点嵌入,ID-GNN首先提取以节点为中心的ego网络,然后应用消息传递,其中来自中心节点(图1中的有色节点)和其余节点的消息分别使用不同的参数进行计算(二者的消息传递函数不一样)。在ID-GNN的简化版本中,通过将给定节点的循环计数注入身份信息作为扩展的节点特征。这些循环计数通过计算ID-GNN计算图的每一层中的有色节点来捕获节点的身份信息,并且可以使用图邻接矩阵的幂进行高效计算。

论文分别比较8个数据集和6个不同任务中的ID-GNNs和GNNs。首先论文在一系列具有挑战性图属性进行预测任务,其中包括预测节点聚类系数预测最短路径距离区分随机d-正则图(注:普通GNN是难以处理此类任务的,由他们的表达能力限制)。然后进一步将ID-GNNs应用于真实世界数据集。结果表明,将现有的GNN转换为ID-GNN版本,在具有挑战性的节点、边和图级别属性预测任务上平均可提高40%的准确率;节点和图分类基准的准确率提高了3%;在实际的边预测任务中,ROC-AUC提高了15%。

贡献

本文的主要贡献包括:

  1. 证明了消息传递GNN可以具有超过1-WL测试的表达能力
  2. 提出的ID-GNN可作为现有GNN的限制的通用解决方案
  3. 揭示了现有GNNs的无效的情况,论证了ID-GNNs相对于现有GNNs具有更优越性能。

相关工作

超越1-WL测试表达能力的图神经网络

最近提出了许多表达能力超越1-WL测试的图神经网络。但是现有方案均引入了标准消息传递GNN额外的或者是特定于任务/领域的组件。例如,P-GNN的嵌入与随机锚集(anchor-sets)绑定,不适用于需要确定最小节点嵌入的节点/图级任务。本文罩着强调了消息传递GNN的优势,并证明了GNN在加入归纳身份信息后,在保持高效、简单和广泛适用性的同时,仍然具有可以超越1-WL测试的表达能力。

带归纳着色的图神经网络

目前也存在多个模型使用增强特征对节点进行着色(color,可理解为标记),以提高现有GNNs的性能。然而现有的着色技术是针对特定于问题或者领域的,通常不适用于节点级和图级任务。而ID-GNN是一个通用模型,可以应用于任何节点、边和图级任务。它还采用了一种异构消息传递方法,它完全兼容节点或边具有丰富特征的情况。

anisotropic消息传递的GNNs

本文提出的ID-GNNs与基于anisotropic消息传递的GNNs(如GAT)有本质的不同,其中不同的注意力权重应用于不同的入方向边。添加anisotropic的消息传递并不会改变底层的计算图,因为相同的消息传递函数是对称地应用于所有节点的。因此,这些模型仍然具有图1中总结的局限性。

相关定义

本文主要关注消息传递GNN,遵循(Xu et al.2019)中GNN的定义,GNN的目标是在局部邻居的迭代聚合的基础上学习有意义的节点嵌入 H V H_V HV。消息传递的第 k k k次迭代(GNN的第 k k k层),可以写成:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

身份感知图神经网络ID-GNN

ID-GNN由两个重要组件组成:(1)归纳身份着色,将身份信息注入每个节点;(2)异构消息传递,在消息传递中利用身份信息。

其伪代码如下:
在这里插入图片描述

归纳身份标记(着色)

为了使用 K K K层ID-GNN获取给定节点 v ∈ G v∈G vG的嵌入,论文首先提取 K − h o p K-hop Khop自我(ego network)网络 G v ( K ) G_v^{(K)} Gv(K)。在整个嵌入过程中, G v ( K ) G_v^{(K)} Gv(K)中的节点可以分为两类:着色节点(中心结点)和无着色节点(非中心节点)。这种着色技术是归纳(inductive)的,因为即使重新排列节点,ego网络的中心节点仍然可以与其他相邻节点进行区分。

异构消息传递

然后将 K K K轮消息传递应用于所有提取的ego网络。为了得到节点 u ∈ G v ( K ) u∈G_v^{(K)} uGv(K)的嵌入,论文对Eq 1进行扩展以实现异构消息传递(注:也就是着色节点和无着色节点的消息函数MSG不是同一个或者具有不同的参数):
在这里插入图片描述

其中,在K轮迭代等式3之后,仅使用 h v ( k ) h_v^{(k)} hv(k)作为节点 v v v的嵌入表示。
等式1中的 M S G ( k ) MSG^{(k)} MSG(k)在公式3中被分为两部分:

  1. M S G 1 ( k ) MSG^{(k)}_1 MSG1(k): 用于中心结点(着色节点)的计算
  2. M S G 0 ( k ) MSG^{(k)}_0 MSG0(k): 用于非中心结点(非着色节点)的计算

这样,归纳身份着色被编码到ID-GNN计算图中

这种异构消息传递方法的一个优点是它适用于任何传递GNN的消息。如考虑边属性消息传递方案,该方案通过在消息传递过程中包含边属性 f s u f_su fsu扩展了等式3中GNNs的定义:
在这里插入图片描述

算法复杂性

除了增加身份着色和使用两种类型的消息传递函数之外,ID-GNN的计算与广泛使用mini-batch的GNNs几乎相同。

ID-GNNs 表达能力的理论研究

ID-GNN比现有的GNNs更具表现能力

已有的消息传递GNNs有一个表示能力的上界即1-WL测试,上界可以用图同构网络(GIN)来表示。

命题1:ID-GNN版本的GIN可以区分GIN可以区分的任何图形,同时能够区分GIN无法区分的某些图形。

若假设 M S G 0 ( k ) ( . ) MSG_0^{(k)}(.) MSG0(k)(.)= M S G 1 ( k ) ( . ) MSG_1^{(k)}(.) MSG1(k)(.),则公式3等价于公式1,这证明了前一部分;图1给出的d-正则(d-regular)图例子证明了第二部分。

ID-GNNs可对循环计数

命题1说明了ID-GNNs具有更强的表达能力。而在本小节中将揭示这种更强的表达能力的一个具体实例,即ID-GNN的具有循环计数(count cycles, cycles,图中闭合三角结构)能力。这对于预测节点聚类系数等有用的任务至关重要,将在下一节对此进行详细阐述。

命题2:对于任意的节点 v v v,K层ID-GNNs可以学习嵌入 h v ( K ) h_v^{(K)} hv(K),其中嵌入 h v ( K ) h_v^{(K)} hv(K)的第j维 h v ( K ) [ j ] h_v^{(K)}[j] hv(K)[j]等于从节点v开始和结束的长度为j的循环的个数, j = 1 , 2... k j=1,2...k j=1,2...k

论文通过证明ID-GNN可以计算从任何节点u到身份节点(中心节点)v的路径来证明这一点。通过归纳法,可证明1层ID-GNN嵌入 h u ( 1 ) h^{(1)}_u hu(1)可以计算从u到v的长度为1的路径;k层ID-GNN嵌入 h u ( k ) h^{(k)}_u hu(k)可以计算从u到v的长度为1,2…k的路径;k+1层ID-GNN嵌入 h u ( k + 1 ) h^{(k+1)}_u hu(k+1)可以计算从u到v的长度为1,2…k,k+1的路径。

ID-GNNs表达能力的案例研究

节点级任务:预测聚类系数

现有的消息传递GNN不能从图结构中归纳预测聚类系数(clustering coefficients),而ID-GNN可以聚类系数是一种广泛使用的度量指标,用来表征节点1跳(1-hop)邻域中闭合三角形(closed triangles)的比例。图1中的节点分类失败的案例表明GNNS无法预测聚类系数,因为GNNS无法区分聚类系数为1和0的节点V1和V2。通过使用one-hot节点特征,GNNs可以克服这个问题。然而,在这种情况下,GNNs会保存每个节点的聚类系数,但是one-hot编码会阻碍该模型对新图的泛化能力。
在这里插入图片描述

基于命题2,K层ID-GNNs可以学习嵌入 h v ( K ) h_v^{(K)} hv(K),其中嵌入 h v ( K ) h_v^{(K)} hv(K)的第j维 h v ( K ) [ j ] h_v^{(K)}[j] hv(K)[j]等于从节点v开始和结束的长度为j的循环的个数, j = 1 , 2... k j=1,2...k j=1,2...k

给定循环计数,可以计算节点 v v v的聚类系数 c v c_v cv
在这里插入图片描述

其中 d v d_v dv是节点 v v v的度数,因为 c v c_v cv关于 h v ( K ) h_v^{(K)} hv(K)的一个连续函数,利用通用近似定理 (Hornik et al. 1989),可以使用MLP将其近似到任意ε精度。

边级任务:预测可达性或最短路径距离。

Vanilla GNNs通过成对的节点嵌入进行边级预测。然而先前的方法不能预测节点对之间的可达性或最短路径距离(SPD)。例如,图1中到达根节点最短路径距离不同的节点v1v2得到相同的嵌入。尽管已有文献(Veliˇckovi´c et al. 2020) 表明,使用适当的节点特征初始化方法可使GNN预测可达性和SPD,而ID-GNNs通过使用条件节点嵌入(conditional node embeddings)提供了一个通用的解决方案。论文将边级预测任务重新表述为条件节点级预测;因此,K层ID-GNN可以通过条件节点嵌入 ( K ) u ∣ v (K)_{u|v} (K)uv来预测在K跳内是否可以从 v ∈ G v∈G vG到达节点 u ∈ G u∈G uG, 通过:
在这里插入图片描述

其中 h u ∣ v ( 0 ) = 0 h^{(0)}_{u|v}=0 huv(0)=0,若 h u ∣ v ( K ) = 1 h^{(K)}_{u|v} = 1 huv(K)=1则说明ID-GNN预测从v可达u。

在这里插入图片描述

图级任务:区分随机d-正则图。

如图1所示,现有消息传递GNN无法完全从图结构上区分随机d-正则图,因为每个节点的计算图是相同的,而与层数无关。
在这里插入图片描述
论文表明了ID-GNN可以区分很大一部分的随机-正则图。 具体来说,生成100个非同构随机正则图,并考虑3个不同设置:它们具有不同的图大小(n)和节点度数(d)。使用K层ID-GNN可以成功表示的长度为K的循环计数(如命题2中所示)来计算这些可区分的规则图的百分比。 表1中的结果证实,添加身份信息可以极大地帮助区分正则化图形。注意:无论层数多少,1 WL测试或GNNs不可区分任何一个图。

在这里插入图片描述

ID-GNN-Fast:通过注入身份信息增强节点特征

鉴于:

  1. GNN的mini-batch实现在提取自我网络时会产生计算开销,这是异构消息传递ID-GNN的内在要求;
  2. 循环计数信息为ID-GNNs提供了额外表达能力;

论文基于此提出了ID-GNN-Fast,其中使用循环计数作为增强的节点特征来注入身份信息。类似的循环计数信息在图核(graph kernel)中也被使用到(Zhang等人,2018)。根据命题3中的定义,论文使用节点 v v v长度为 1 , 2 , 3... K 1,2,3...K 1,2,3...K的循环数作为增强节点特征 x v + ∈ R K x_v^+∈R^K xv+RK,这些附加特征 x v + x_v^+ xv+可以通过 x v + = D i a g ( A k ) [ v ] x_v^+=Diag(A^k)[v] xv+=Diag(Ak)[v]进行稀疏矩阵乘法进行有效计算,其中 A A A为图的邻接矩阵。然后,通过concat这个增强特征 x v = C O N C A T ( x v , x v + ) x_v=CONCAT(x_v,x_v^+) xv=CONCAT(xv,xv+)来更新所有节点的输入节点属性。

实验

在这里插入图片描述
在这里插入图片描述

总结

论文提出的ID-GNNs作为对现有GNNs的一个通用且强大的扩展,ID-GNNs的表达能力超过了1-WL测试。当运行效率是主要考虑因素时,论文还提出了一个特征增强版本ID-GNNs-Fast,只需要进行一次性的特征预处理。当其他节点属性不可用时,论文建议将循环计数特征增强作为新的go-to(出方向)节点特征进行初始化。此外,作为对消息传递GNNs的直接扩展,ID-GNNs可以很容易地通过现有的代码平台实现和扩展。

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值