MAGNN:用于异构图嵌入的元路径聚合图神经网络
摘要
大量真实世界的图形或网络本质上是异构的,涉及到多种多样的节点类型和关系类型。异构图嵌入是将异构图丰富的结构和语义信息嵌入到低维节点表示中。现有模型通常在异构图中定义多个元路径,以捕获复合关系并指导邻居选择。然而,这些模型要么忽略节点内容特征,沿着元路径丢弃中间节点,要么只考虑一个元路径。为了解决这三个限制,我们提出了一个新的模型,称为元路径聚合图神经网络(MAGNN),以提高最终的性能。具体来说,MAGNN使用三个主要组件,即封装输入节点属性的节点内容转换、包含中间语义节点的元路径内聚合以及组合来自多个元路径的消息的元路径间聚合。在三个真实世界的异构图形数据集上进行的节点分类、节点聚类和链接预测的大量实验表明,MAGNN获得了比最先进的基线更精确的预测结果。
1引言
许多真实世界的数据集自然地以图形数据结构来表示,其中对象和它们之间的关系分别由节点和边来体现。例子包括社交网络[14,29],物理系统[2,10],流量网络[18,34],引用网络[1,14,16],推荐系统[26,35],知识图[3,24]等等。图形独特的非欧几里德性质使得它们很难用传统的机器学习模型来建模。对于每个节点的邻域集,没有顺序或大小限制。然而,大多数统计模型假设有序和固定大小的输入位于欧几里得空间中。因此,如果节点可以在欧几里得空间中用有意义的低维向量表示,然后作为其他机器学习模型的输入,这将是有益的。
已经为图结构提出了不同的图嵌入技术。LINE[25]通过利用节点之间的一阶和二阶邻近性来生成节点嵌入。基于随机漫步的方法包括DeepWalk[21]、node2vec[13]和TADW [32],将随机漫步生成的节点序列馈送到跳格模型[19]以学习节点嵌入。随着深度学习的快速发展,图神经网络被提出,它使用专门设计的神经层来学习图的表示。基于谱的神经网络,包括ChebNet [8]和GCN [16],在整个图的傅立叶域中执行图卷积运算。最近的基于空间的GNNs,包括GraphSAGE [14],GAT [28],和许多其他变体[17,34,35],通过直接在图域中执行图卷积运算,解决了基于谱的模型的可扩展性和泛化能力的问题。越来越多的研究人员关注这个有前途的领域。
虽然GNNs在许多任务中取得了最先进的结果,但大多数基于GNN的模型都假设输入是一个只有一种节点类型和一种边类型的同构图。大多数真实世界的图形由与不同特征空间中的属性相关联的各种类型的节点和边组成。例如,合著网络至少包含两种类型的节点,即作者和论文。作者属性可能包括从属关系、引用和研究领域。论文属性可能由关键词、地点、年份等组成。我们称这种图为异构信息网络或异构图。图形结构和节点内容的异构性使得GNNs难以将丰富多样的信息编码到低维向量空间中。
现有的大多数异构图嵌入方法都是基于元路径的思想。元路径是在网络模式上定义的节点类型和边缘类型的有序序列,它描述了所涉及的节点类型之间的复合关系。例如,在具有作者、论文和地点的学者网络中,作者-论文-作者(APA)和作者-论文-地点-论文-作者(APVPA)是描述作者之间两种不同关系的元路径。APA元路径关联两个共同作者,而APVPA元路径关联两个在同一地点发表论文的作者。因此,我们可以将元路径视为两个节点之间的高阶邻近。由于传统的神经网络对所有节点一视同仁,无法对异构图中复杂的结构和语义信息进行建模。
虽然这些基于元路径的嵌入方法在各种任务上优于传统的网络嵌入方法,如节点分类和链路预测,但它们仍然受到以下至少一个限制。(1)该模型不利用节点内容特征,因此它很少在具有丰富节点内容特征的异构图上表现良好(例如,metapath2vec [9]、ESim [22]、HIN2vec [11]和HERec [23])。(2)该模型通过仅考虑两个末端节点来丢弃元路径上的所有中间节点,这导致信息丢失(例如,HERec [23]和HAN [31])。(3)模型依赖单一元路径嵌入异构图。因此,该模型需要手动元路径选择过程,并且会丢失来自其他元路径的信息,从而导致次优的性能(例如,元路径2vec [9])。
为了解决这些局限性,我们提出了一种新的异构图嵌入元路径聚合图神经网络(MAGNN)。MAGNN通过应用节点内容转换、元路径内聚合和元路径间聚合来生成节点嵌入,从而解决了上述所有问题。具体来说,MAGNN首先应用类型特定的线性变换来将异构节点属性投影到相同的潜在向量空间,不同节点类型的维度可能不相等。接下来,MAGNN对每个元路径应用具有注意机制的元路径内聚集[28]。在这种元路径内聚合期间,每个目标节点从将节点与其基于元路径的邻居连接起来的元路径实例中提取并组合信息。通过这种方式,MAGNN从相邻节点和中间的元路径上下文中捕获异构图的结构和语义信息。在元路径内聚合之后,MAGNN进一步使用注意机制进行中间路径聚合,以将从多个元路径获得的潜在向量融合到最终的节点嵌入中。通过集成多个元路径,我们的模型可以学习到在异构图中根深蒂固的综合语义。
总之,本文的主要工作有以下几个方面:
- 提出了一种新的用于异构图嵌入的元路径聚合图神经网络。
- 我们设计了几个候选编码器函数,用于从元路径实例中提取信息,其中一个基于复杂空间中关系旋转的思想[24]。
- 我们在IMDb和DBLP数据集上进行了广泛的实验,用于节点分类和节点聚类,并在Last.fm数据集上进行了链接预测,以评估我们提出的模型的性能。在所有这些数据集和任务上的实验表明,MAGNN学习的节点嵌入始终优于其他最先进的基线生成的节点嵌入。
2初步
在这一节中,我们给出了与异构图相关的一些重要术语的正式定义。图1提供了图解。此外,表1总结了本文中常用的符号,以供快速参考。
图1:第2节中定义的术语说明。(a) 一个具有三种类型节点(即用户、艺术家和标记)的异构图示例。(b) 用户艺术家标记艺术家(UATA)元路径和用户艺术家标记艺术家用户(UATAU)元路径。(c) UATA和UATAU元路径的示例元路径实例。(d) 基于元路径的图分别用于UATA和UATAU元路径
定义2.1。异构图。异构图被定义为与节点类型映射函数和边类型映射函数相关联的图。A和R分别用|A| + |R| > 2表示节点类型和边类型的预定义集合。
定义2.2。元路径。元路径被定义为(缩写为)形式的路径,它描述了在节点类型和之间的复合关系,其中表示关系上的复合运算符。
定义2.3。元路径实例。给定异构图的元路径P,P的元路径实例p被定义为图中遵循由P定义的模式的节点序列。
定义2.4。基于元路径的邻居。给定异构图的元路径P,将节点v的基于元路径的邻居定义为通过P的元路径实例与节点v连接的节点集,将两个不同元路径实例连接的邻居视为中的两个不同节点。注意,如果P是对称的,包括v本身。
例如,考虑图1中的元路径UATA,艺术家皇后是用户鲍勃的基于元路径的邻居。这两个节点通过元路径实例“鲍勃-披头士-摇滚-女王”连接在一起。此外,我们可以将披头士和摇滚称为元路径实例中的中间节点。
定义2.5。基于元路径的图。给定异构图G的元路径P,基于元路径的图是由图G中所有基于元路径P的邻居对构成的图。注意,如果P是对称的,则是同构的。
定义2.6。异构图形嵌入。给定一个异构图,节点属性矩阵对于节点类型,异构图嵌入的任务是学习d维节点表对所有v∈ V和d≪ |V |能够捕获G中涉及的丰富的结构和语义信息。
3相关工作
在本节中,我们回顾了与我们的模型相关的图形表示学习的研究。它们被组织成两个子部分:第3.1节总结了关于一般图嵌入的GNNs的研究工作,而第3.2节介绍了为异构图设计的图嵌入方法。
3.1图形神经网络
GNN的目标是为每个节点v学习低维向量表示,它可用于许多下游任务,例如节点分类、节点聚类和链路预测。这背后的基本原理是,每个节点自然地由它自己的特征和它的邻域来定义。遵循这一思想并基于图形信号处理,基于频谱的神经网络首先被开发来在图形的傅立叶域中执行图形卷积。ChebNet [8]利用切比雪夫多项式在图形傅立叶域中过滤图形信号(节点特征)。另一个有影响的模型是GCN [16],它约束和简化了ChebNet的参数,以减轻过拟合问题并提高性能。然而,基于谱的神经网络的可扩展性和泛化能力较差,因为它们需要整个图作为每一层的输入,并且它们学习的滤波器依赖于与特定图结构密切相关的图拉普拉斯算子的特征基。
基于空间的神经网络已经被提出来解决这两个限制。这类神经网络通过聚集来自每个节点的邻居的特征信息,直接在图域中定义卷积,从而模仿卷积神经网络对图像数据的卷积运算。GraphSAGE [14],开创性的基于空间的GNN框架,建立在聚合器功能的一般概念之上,用于高效生成节点嵌入。聚合器函数对目标节点的局部邻域进行采样、提取和转换,从而有助于并行训练和推广到不可见的节点或图形。基于这一思想,已经提出了许多其他基于空间的GNN变体。受Transformer [27]的启发,GAT [28]将注意力机制结合到聚合器功能中,以从目标节点的角度考虑每个邻居信息的相对重要性。GGNN [17]通过将聚集的邻域信息作为当前时间步长的GRU的输入,将门控递归单元(GRU) [7]添加到聚集器函数。GaAN [34]将GRU和门控多头注意机制结合起来处理时空图。STAR-GCN [35]堆叠多个GCN编码器-解码器,以提高评级预测性能。
上面提到的所有通用网络要么是为同构图构建的,要么是为具有特殊结构的图设计的,如在用户项目推荐系统中。由于现有的大部分神经网络都是在相同的共享嵌入空间中对节点的特征进行操作,因此它们不能自然地适应节点特征位于不同空间的异构图。
3.2异构图嵌入
异构图嵌入旨在将异构图中的节点投影到低维向量空间中。这个具有挑战性的话题已经被许多研究解决了。例如,metapath2vec [9]生成由单个元路径引导的随机行走,然后这些随机行走被馈送到skip-gram模型[19]以生成节点嵌入。给定用户定义的元路径,ESim [22]通过从采样的正和负元路径实例中学习来生成节点嵌入。HIN2vec [11]执行多个预测训练任务来学习异构图的节点和元路径的表示。给定一个元路径,HERec [23]基于基于元路径的邻居将异构图转换为同构图,并应用DeepWalk模型来学习目标类型的节点嵌入。与HERec一样,HAN [31]以类似的方式将异构图转换为基于多元路径的同构图,但使用图关注网络架构来聚合来自邻居的信息,并利用关注机制来组合各种元路径。另一个模型,PME [6],通过将节点嵌入投影到相应的关系空间中并优化投影节点之间的接近度来学习节点嵌入。
然而,上面介绍的所有异构图嵌入方法都有这样的局限性,要么忽略节点内容特征,丢弃元路径上的所有中间节点,要么只利用单个元路径。尽管对于一些异构图形数据集,它们可能已经改进了同构图形嵌入方法的性能,但是通过更全面地利用异构图形中嵌入的信息,仍然有改进的空间。
4方法
在这一节中,我们描述了一种新的用于异构图嵌入的元路径聚合图神经网络。MAGNN由三个主要组件构成:节点内容转换、元路径内聚合和元路径间聚合。图2展示了单个节点的嵌入生成。算法1显示了整个前向传播过程。
4.1节点内容转换
对于与节点属性相关联的异构图,不同的节点类型可能具有不相等的特征向量维度。即使它们恰好是相同的维度,它们也可能位于不同的特征空间中。例如,文本的n1维词袋向量和图像的n2维强度直方图向量即使n1= n2也不能直接一起运算。当我们在一个统一的框架中处理不同维度的特征向量时,会很麻烦。因此,我们需要首先将不同类型的节点特征投影到同一个潜在向量空间中。
因此,在将节点向量输入MAGNN之前,我们通过将特征向量投影到相同的潜在因子空间中,为每种类型的节点应用特定类型的线性变换。对于型的节点,我们有
其中是原始特征向量,是节点v的投影潜向量。是A型节点的参数权重矩阵。
节点内容转换解决了源自节点内容特征的图的异构性。在应用该操作之后,所有节点的投影特征共享相同的维度,这便于下一个模型组件的聚合过程。
4.2元路径内聚合
给定一个元路径P,元路径内聚合层通过对P的元路径实例进行编码来学习嵌入在目标节点、基于元路径的邻居以及它们之间的上下文中的结构和语义信息。假设P(v,u)是连接目标节点v和基于主路径的邻居的元路径实例,我们进一步将P(v,u)的中间节点定义为。元路径内聚合使用特殊的元路径实例编码器将沿元路径实例的所有节点特征转换为单个向量,
其中具有d’维数。为简单起见,这里我们使用P (v,u)来表示单个实例,尽管可能有多个实例连接两个节点。第4.4节介绍了合格元路径实例编码器的几种选择。
在将元路径实例编码成向量表示后,我们采用图关注层[28]对与目标节点v相关的P的元路径实例进行加权求和。关键思想是不同的元路径实例将在不同程度上对目标节点的表示做出贡献。我们可以通过为每个元路径实例学习一个归一化的重要性权重,然后对所有实例进行加权求和来对此建模:
这里是元路径P的参数化关注向量,而||表示向量拼接算子。指示元路径实例P (v,u)对节点v的重要性,然后使用softmax函数对所有选项进行规范化。一旦获得了所有节点的归一化重要性权重,它们就被用来计算关于节点的元路径实例的表示的加权组合。最后,输出通过激活函数σ(·)。
这种注意机制也可以扩展到多个头部,有助于稳定学习过程,减少图形异构带来的高方差。也就是说,我们执行独立的注意机制,然后连接它们的输出,得到如下公式:
其中是第k个注意头处元路径实例P(v,u)到节点v的归一化重要性。
总而言之,给定投影特征向量和集合元路径,以节点类型A ∈ A开始或结束,MAGNN的元路径内聚合生成目标节点的M个元路径特定向量表示,表示为n个。每个(假设K = 1)可以被解释为关于节点v的Pi元路径实例的总结,展示了节点v中包含的语义信息的一个方面。
4.3元路径间聚合
在聚合每个元路径内的节点和边缘数据后,我们需要使用元路径间聚合层来组合所有元路径揭示的语义信息。现在对于节点类型A,我们有组潜在向量:,对于,其中M是类型A的元路径数。一种简单的元路径间聚合方法是采用这些节点向量的元素均值。我们通过利用注意机制为不同的元路径分配不同的权重来扩展这种方法。这种操作是合理的,因为元路径在异构图中并不同等重要。
首先,我们通过平均所有节点的变换元路径特定节点向量来总结每个元路径,
其中和是可学习参数。
然后我们使用注意机制来融合v的元路径特定节点向量如下:
其中是节点类型A的参数化注意向量,可以解释为元路径到类型A的节点的相对重要性。一旦为每个计算了,我们就对所有特定于元路径的节点向量进行加权求和。
最后,MAGNN使用一个附加的线性变换和一个非线性函数将节点嵌入投影到具有期望输出维数的向量空间:
其中σ(·)是激活函数,是权矩阵。这种预测是特定于任务的。它可以被解释为用于节点分类的线性分类器,或者被认为是用于链路预测的具有节点相似性度量的空间的投影。
4.4元路径实例编码器
为了对4.2节中的每个元路径实例进行编码,我们检查了三个候选编码器函数:
- 均值编码器。该函数取沿元路径实例P (v,u)的节点向量的元素均值:
- 线性编码器。这个函数是mean编码器的扩展,通过附加一个线性变换:
- 相关旋转编码器。我们还研究了基于复杂空间中关系旋转的元路径实例编码器,这是RotatE [24]提出的用于知识图嵌入的操作。上面介绍的均值和线性编码器基本上将元路径实例视为一个集合,因此忽略了嵌入在元路径顺序结构中的信息。关系旋转提供了一种对这类知识建模的方法。给定,设为节点与节点之间的关系,设为的关系向量,关系旋转编码器公式如下:
- 其中和都是复向量,是元素积。通过将向量的前半部分视为实部,后半部分视为虚部,我们可以很容易地将维d′的实向量解释为维d′/2的复向量。
4.5训练
在应用了前面章节中介绍的组件之后,我们获得了最终的节点表示,然后可以在不同的下游任务中使用。根据不同任务的特点和节点标签的可用性,我们可以在两种主要的学习范式下训练MAGNN,即半监督学习和无监督学习。
对于半监督学习,在一小部分标记节点的指导下,我们可以通过反向传播和梯度下降最小化交叉熵来优化模型权重,从而为异构图学习有意义的节点嵌入。该半监督学习的交叉熵损失公式为:
其中是有标签的节点集,C是类的个数,是节点v的单热标签向量,是节点v的预测概率向量。
对于无监督学习,在没有任何节点标签的情况下,我们可以通过负采样最小化以下损失函数来优化模型权重[20]:
其中σ(·)是sigmoid函数,是观察到的(正)节点对的集合,是从所有未观察到的节点对(的补码)中采样的负节点对的集合。
5实验
在这一部分,我们提出实验来证明MAGNN对异构图嵌入的有效性。实验旨在解决以下研究问题:
- RQ1。MAGNN在节点分类上表现如何?
- RQ2。MAGNN在节点聚类中表现如何?
- RQ3。MAGNN在预测节点对之间的合理链接方面表现如何?
- RQ4。上一节描述的MAGNN的三个主要组件有什么影响?
- RQ5。我们如何理解不同图形嵌入方法的表示能力?
5.1数据集
我们采用来自不同领域的三个广泛使用的异构图形数据集来评估MAGNN与最先进的基线相比的性能。具体来说,在节点分类和节点聚类的实验中使用了IMDb和DBLP数据集。最后一个调频数据集用于链路预测实验。表2总结了三个数据集的简单统计数据,图3展示了网络模式。我们为没有属性的节点分配一个热id向量作为它们的虚拟输入特征。
- IMDb 是一个关于电影和电视节目的在线数据库,包括演员、制作团队和情节摘要等信息。我们使用从网上抓取的IMDb的子集,包含4278部电影、2081名导演和5257名演员,经过数据预处理。电影根据其类型信息被分为三类(动作片、喜剧片和戏剧片)。每部电影也是用一袋词来描述它的情节关键词。对于半监督学习模型,电影节点分为400 (9.35%)、400 (9.35%)和3478 (81.30%)个节点的训练、验证和测试集。
- DBLP 是一个计算机科学文献网站。我们采用[12,15]提取的DBLP子集,包含4057位作者、14328篇论文、7723个术语和20个出版地点。作者分为四个研究领域(数据库、数据挖掘、人工智能和信息检索)。每个作者都用他们论文关键词的一袋单词来描述。对于半监督学习模型,作者节点分为400 (9.86%)、400 (9.86%)和3257 (80.28%)个节点的训练、验证和测试集。
- Last.fm 是一个音乐网站,记录用户从各种来源收听的信息。我们采用了HetRec 2011 [4]发布的数据集,由1892个用户、17632个艺术家、1088个艺术家标签组成,经过数据预处理。此数据集用于链接预测任务,并且此数据集中不包含任何标签或要素。对于半监督学习模型,用户-艺术家对被分成64984 (70%)、9283 (10%)和18567 (20%)对的训练、验证和测试集。
5.2基线
我们将MAGNN与不同类型的图形嵌入模型进行比较,包括传统(与GNNs相反)的同构图形嵌入模型、传统异构图形嵌入模型、同构图形的GNNs和异构图形的GNNs。我们把它们分别称为传统的同质模型、传统的异质模型、同质神经网络和异质神经网络。基线模型列表如下所示。
- LINE[25]是传统的同质模型,利用节点之间的一阶和二阶邻近性。通过忽略图结构的异构性和删除所有节点内容特征,我们将其应用于异构图。在我们的实验中应用了使用二阶近似的线变量。
- node2vec [13]是传统的同构模型,是DeepWatch[21]的广义版本。我们将它应用于异构图,方法与LINE相同。
- ESim [22]是一种传统的异构模型,它从采样的元路径实例中学习节点嵌入。ESim要求为每个元路径预定义一个权重。这里,我们为所有元路径分配相等的权重,因为搜索元路径的最佳权重是困难的,并且根据作者的实验,在相等的权重上没有提供显著的性能增益。
- metapath2vec [9]是一种传统的异构模型,它通过向skip-gram模型提供元路径引导的随机行走来生成节点嵌入。这个模型依赖于一个用户指定的元路径,所以我们分别对所有元路径进行测试,并报告结果最好的一个。我们在实验中使用metapath2vec++模型变量。
- HERec [23]是一种传统的异构模型,它通过将DeepWalk应用于从原始异构图转换而来的基于元路径的同构图来学习节点嵌入。该模型附带了一个为评级预测设计的嵌入融合算法,可适用于链接预测。对于节点分类/聚类,我们选择并报告具有最佳性能的元路径。
- GCN [16]是同质的GNN。该模型在图形傅立叶域中执行卷积运算。这里,我们在基于元路径的同构图上测试GCN,并报告来自最佳元路径的结果。
- GAT [28]是一个同质的GNN。该模型结合了注意力机制,在图形空间域中进行卷积运算。同样,我们在基于元路径的同构图上测试GAT,并报告最佳元路径的结果。
- GATNE [5]是一个异质的GNN。它从基础嵌入和边缘嵌入生成节点的表示,重点是链接预测任务。在这里,我们报告了表现最好的GATNE变体的结果。
- HAN[31]是一位杰出的GNN。它从不同的基于元路径的同构图中学习元路径特定的节点嵌入,并利用注意机制将它们组合成每个节点的一个向量表示。
对于传统模型,包括LINE、node2vec、ESim、metapath2vec和HERec,我们将窗口大小设置为5,行走长度设置为100,每个节点行走40,负样本数量设置为5(如果适用)。对于神经网络,包括GCN、GAT, HAN和我们提出的神经网络,我们将辍学率设置为0.5;我们使用相同的训练、验证和测试集合分割;我们使用亚当优化器,学习率设置为0.005,权重衰减(L2惩罚)设置为0.001;我们为100个时期训练神经网络,并以30的耐心申请提前停止。对于节点分类和节点聚类,神经网络以半监督方式训练,一小部分节点标记为指导。对于GAT、HAN和MAGNN,我们将关注头的数量设置为8。对于HAN和MAGNN,我们将元路径间聚合中的注意向量的维数设置为128。为了公平比较,我们将上述所有模型的嵌入维数设置为64。
5.3节点分类(RQ1)
我们在IMDb和DBLP数据集上进行了实验,以比较不同模型在节点分类任务上的性能。我们将每个学习模型生成的标记节点(IMDb的电影和DBLP的作者)嵌入到具有不同训练比例的线性支持向量机(SVM)分类器中。请注意,为了公平比较,只有测试集中的节点被馈送到线性SVM,因为半监督模型已经“看到”了训练和验证集中的节点,如等式11所示。因此,这里线性SVM的训练和测试比例仅涉及测试集(即,IMDb 3478个节点,DBLP 3257个节点)。同样,线性SVM的训练/测试分割在嵌入模型中也是相同的。相似的策略也被应用到节点聚类和链路预测的实验中。我们在表3中报告了每个嵌入模型10次运行的平均宏F1和微F1。
如表中所示,MAGNN在不同的训练比例和数据集上始终比其他基线表现更好。在IMDb,有趣的是看到node2vec比传统的异构模型表现更好。也就是说,神经网络,尤其是异构神经网络,获得了更好的结果,表明明智地利用异构节点特征的GNN体系结构有助于提高嵌入性能。MAGNN在最佳基线(HAN)上获得的性能增益约为4-7%,这表明元路径实例比基于元路径的邻居包含更丰富的信息。在DBLP,节点分类任务是微不足道的,从所有模型的高分就可以看出这一点。即便如此,MAGNN的表现仍然比最强基线高出1-2%。
5.4节点聚类(RQ2)
我们在IMDb和DBLP数据集上进行实验,以比较不同模型在节点聚类任务上的性能。我们将每个学习模型生成的标记节点(IMDb的电影和DBLP的作者)嵌入到K-Means算法中。K均值中的聚类数设置为每个数据集的类别数,即IMDb为3,DBLP为4。我们采用归一化互信息和调整后的兰德指数作为评价指标。由于K-Means算法的聚类结果高度依赖于质心的初始化,所以我们对嵌入模型的每次运行重复10次K-Means,并且对每个嵌入模型测试10次。我们在表4中报告了平均结果。
从表4中,我们可以看到MAGNN在节点聚类中始终优于所有其他基线。请注意,所有型号在IMDb的性能都比在DBLP差得多。这大概是因为IMDb电影的脏标签:原始IMDb数据集中的每个电影节点都有多个流派,我们只选择第一个作为它的类别标签。我们可以看到,传统的异构模型在节点聚类方面并没有传统的同构模型那么多的优势。Node2vec预计在节点聚类任务中表现强劲,因为作为一种基于随机行走的方法,它迫使图中靠近的节点也靠近嵌入空间[33],从而编码节点位置信息。该属性隐含地促进了K-均值算法,因为它基于嵌入之间的欧几里德距离来聚类节点。尽管如此,异构感知神经网络(即HAN和MAGNN)仍然在两个数据集上的节点聚类中排名第一。
5.5链路预测(RQ3)
我们还在Last.fm数据集上进行实验,以评估MAGNN和其他基线在链路预测任务中的性能。对于GNNs,我们将连接的用户-艺术家对视为正节点对,并将所有未连接的用户-艺术家链接视为负节点对。我们将相同数量的随机抽样负节点对添加到验证和测试集中。在神经网络的训练过程中,负节点对也是动态均匀采样的。然后通过最小化等式12中描述的目标函数来优化神经网络。
给定用户嵌入和由训练模型生成的艺术家嵌入,我们计算u和v链接在一起的概率如下:
其中σ(·)是sigmoid函数。链接预测的嵌入模型通过ROC曲线下的面积和平均精度分数来评估。我们在表5中报告了每个嵌入模型10次运行的平均结果。
从表5来看,MAGNN的表现远远优于其他基线模型。这里最强的传统模型是元路径2vec,它从由单个元路径引导的随机行走生成的节点序列中学习。MAGNN比metapath2vec获得更好的分数,表明考虑单个metapath是次优的。在GNN基线中,HAN获得了最好的结果,因为它是异构感知的,并结合了多个元路径。我们的MAGNN比HAN相对提高了6%左右。这一结果支持了我们的主张,即节点的元路径上下文对节点嵌入至关重要。
5.6消融研究(RQ4)
为了验证我们模型的每个组件的有效性,我们进一步对不同的MAGNN变体进行了实验。这里我们报告从表6中所有三个任务的三个数据集获得的结果。请注意,节点分类任务(即宏观F1和微观F1)的每个呈现分数是不同训练比例下分数的平均值(在第5.3节中解释)。在这里,使用关系旋转编码器提出了我们的模型,即表3、4和5中用于与其他基线竞争的模型。设为参考模型,为不利用节点内容特征的等价模型;只考虑基于元路径的邻居;考虑单一最佳元路径;改为使用平均元路径实例编码器;切换到使用线性元路径实例编码器。除了上述差异,所有其他设置对于这些MAGNN变体都是相同的。请注意, Last.fm相当于,因为该数据集不包含节点属性。
可以看出,通过利用节点内容特征,获得了比显著的性能改进,这表明了应用节点内容转换来合并节点特征的必要性。将与、和进行比较,我们发现聚合元路径实例而不是基于元路径的邻居会提高性能,这验证了元路径内聚合的有效性。接下来,和的结果之间的区别是,通过在路径间聚合中组合多个元路径,模型性能得到了显著提高。最后,GNNavg、MAGNLINE和MAGNNORT的结果表明,关系旋转编码器确实有助于将MAGNN提高一点点。有趣的是,的性能比差。尽管如此,使用不同编码器的所有三个MAGNN变体仍然始终优于最佳基线HAN。
5.7可视化(RQ5)
除了嵌入模型的定量评估,我们还可视化节点嵌入,以对嵌入结果进行定性评估。我们从Last.fm数据集的正测试集中随机选择30个用户-艺术家对,然后使用t-SNE将这些节点的嵌入投影到二维空间中。这里,我们在图4中展示了LINE、ESim、GCN和MAGNN的可视化结果,其中红点和绿点分别表示用户和艺术家。
基于这种可视化,人们可以根据图形嵌入模型对异构图形的学习能力来快速区分它们之间的差异。作为传统的同构图嵌入模型,LINE不能有效地将用户节点和艺术家节点分成两个不同的组。相比之下,传统的异构模型ESim可以大致划分两种类型的节点。得益于强大的GNN架构,通过选择适当的元路径,GCN这样的同质GNN可以隔离不同类型的节点,并将用户-艺术家对的相关信息编码到节点嵌入中。从图4中,我们可以看到我们提出的MAGNN获得了最好的嵌入结果,有两个分离良好的用户和艺术家组,以及用户-艺术家对的对齐相关性。
6结论
在本文中,我们提出了一种新的元路径聚合图神经网络(MAGNN),以解决(a) LINE (b) ESim (c) GCN (d) MAGNN的三个特征限制。图4:在最后一帧中嵌入节点对的可视化。现有的异构图嵌入方法,即(1)丢弃节点内容特征,(2)丢弃元路径上的中间节点,以及(3)仅考虑单个元路径。具体来说,MAGNN应用了三个构建块组件:(1)节点内容转换,(2)元路径内聚合,以及(3)元路径间聚合,分别处理每个限制。此外,我们定义了元路径实例编码器的概念,它用于提取元路径实例中根深蒂固的结构和语义信息。我们提出了几个候选编码器函数,包括一个受RotatE知识图嵌入模型[24]启发的函数。在实验中,MAGNN在三个真实数据集上实现了节点分类、节点聚类和链接预测任务的最新结果。消融研究还证明了MAGNN三种主要成分在提高植入性能方面的功效。我们计划利用异构知识图辅助的用户项目数据,使这种异构图嵌入框架适应评级预测(推荐)任务[30]。