3天一篇图网络之Heterogeneous Graph Propagation Network


博客闲置有一段时间了,开启新的计划 Gogogo~~
TKED2021

TKED2021

Abstract

图形神经网络(GNN)作为一种基于深度学习的强有力的图形表示技术,已经显示出优越的性能,并引起了广泛的研究兴趣。最近,一些工作试图将GNN推广到包含不同类型的节点和链接的异构图。异构图神经网络通常遵循两个步骤:通过单元路径聚集邻居,然后通过多元路径聚集丰富的语义。然而,我们在异构神经网络中发现了一个重要的语义混淆现象,即随着模型深度的增长,学习到的节点嵌入变得不可区分,导致异构神经网络的性能下降。我们从理论上推导出异构神经网络和基于多元路径的随机游走本质上是等价的,以此来解释语义混淆。在理论分析的基础上,我们提出了一种新的异构图传播网络(HPN)来缓解语义混乱。具体来说,语义传播机制通过适当的权重吸收节点的局部语义来改进节点级聚合过程,使得HPN能够捕捉到每个节点的特征,并通过更深层次的神经网络结构来学习可区分的节点嵌入。然后,设计语义融合机制来学习元路径的重要性并明智地融合它们。大量的实验结果表明,所提出的HPN优于现有技术。

1 Introduction

图表示学习可以学习图结构数据的表示,已经广泛应用于各种图挖掘任务。在不同的图表示学习方法中,图神经网络(GNN)是最有竞争力的深度学习技术之一,并引起了相当大的关注。基本上,当前的神经网络遵循从邻居接收消息并应用神经网络来学习节点表示的消息传递框架。各种图形应用已经证明了GNNs的良好性能。

但是,以往的GNNs主要关注同构图,而现实世界的图通常带有多种类型的节点或边,被广泛称为异构信息网络或异构图。异构图包含丰富的语义,已被广泛应用于复杂关系数据的建模。如图1所示,学术图ACM包含论文、作者和主题及其复杂关系三类节点。元路径是一种连接一系列节点的复合关系,已被广泛用于捕捉丰富的语义(例如,论文-作者-论文描述了合作作者关系,而论文-主题-论文意味着两篇论文属于同一主题)。显然,通过不同元路径连接的节点在多个方面表现出不同的相似性,这些相似性可以被视为不同的语义信息。已经提出了几种异构图神经网络(HeteGNNs)来更好地分析这种异构图。异构网络通常遵循两步聚合以分层方式处理:通过节点级的单个元路径聚集邻居,然后通过语义级的多个元路径聚集丰富的语义。例如,HAN利用层次注意力来实现更好的聚合。高实用价值使其广泛应用于各种应用,尤其是工业应用。

Fig1

Fig 1

在实际应用HeteGNNs时,我们发现了一个重要的现象,叫做语义混淆。类似于同构GNNs中的过平滑,语义混淆是指异构GNNs将通过多个元路径提取的混淆语义注入到节点嵌入中,使得学习到的节点嵌入无法区分,导致隐藏层越多,性能越差。图2(a)显示了HAN在ACM学术图上的聚类性能。这清楚地表明,随着模型深度的增长,异构神经网络的性能越来越差。此外,我们在图2(b)©(d)(e)中可视化了通过HAN学习的论文嵌入。
在这里插入图片描述

Fig 2 不同层次的论文嵌入的聚类结果及可视化。每个点表示一篇论文,相应的颜色表示标签(即研究领域)。随着模型深度的增长,语义混淆发生,这意味着学习的节点嵌入变得不可区分。例如,属于不同研究领域的论文嵌入通过位于不同位置的1层HAN学习,而通过4层HAN学习的论文嵌入混合在一起。

可以看出,1层的HAN能够学习可区分的论文嵌入,即不同研究领域的论文位于不同的位置,而4层的HAN则使其不太容易区分。请注意,过拟合和消失梯度都不会导致HAN的退化,因为我们使用LikeyRelu/ELU作为激活函数来减轻梯度消失,并通过提前停止来改变超参数(例如,正则化系数),以避免过拟合。实际上,语义混淆的原因有两个方面:第一,随着模型深度的增长,不同的节点会连接到相同的基于元路径的邻居,这意味着元路径无法为每个节点捕获有意义的信息。第二,语义级聚合中的多个元路径组合实际上融合了多个不可区分的语义,因此融合后的语义保持不可区分。也就是说,通过多个元路径提取的语义仍然无法区分。因此,即使异构神经网络能够以分层的方式向节点嵌入注入丰富的语义,混淆的语义仍然会发生,使得学习的节点嵌入无法区分。语义混乱使得异构网络很难成为真正的深度模型,这严重限制了它们的表示能力,并损害了下游任务的性能。缓解语义混乱现象,构建更强大、更深层的异构网络是一个亟待解决的问题。

本文从理论上分析了异构神经网络中的语义混淆,证明了异构神经网络和基于多元路径的随机游走本质上是等价的,这启发我们从节点级的单元路径聚合或语义级的多元路径融合的角度来缓解语义混淆。然后我们提出了一种新的异构图传播网络(HPN),从基于多元路径的随机游走的角度来缓解语义混乱,特别是改进了节点级的单元路径聚合过程。提出的HPN包含两个部分:语义传播机制和语义融合机制。除了聚集来自基于元路径的邻居的信息,语义传播机制还以适当的权重吸收节点的局部语义。因此,即使有更多的隐藏层,语义传播机制也可以捕获每个节点的特征,而不是在节点嵌入中注入混淆的语义。从而缓解语义混乱,构建更深层次的神经网络。语义融合机制旨在学习元路径的重要性,并将其融合以实现全面的节点嵌入。最后,整个模型可以通过端到端的反向传播进行优化。

主要贡献总结如下:
①我们首次发现了异质网络中的一个重要现象,命名为语义混淆。语义混乱意味着模型深度的增长将通过异构神经网络学习的节点嵌入区分开来,导致模型性能的退化。
②据我们所知,这是第一次尝试通过从理论上证明异构GNNs和基于多元路径的随机漫步本质上是等价的来解释为什么会发生语义混淆。
③我们提出了一种新的深度异构图传播网络,称为HPN,它主要由语义传播机制和语义融合机制组成。与以前的异构神经网络相比,提出的HPN算法能够缓解节点级语义混乱,学习更多具有代表性的节点嵌入和更多的隐藏层。具体来说,HPN的语义传播机制吸收节点的局部语义,并在节点级聚合中向节点嵌入注入可区分的语义,而HPN的语义融合机制则学习元路径的重要性,并对它们进行适当的融合。
④我们进行了广泛的实验,以评估提议的HPN,并展示其与最先进技术相比的优势。在语义传播机制和语义融合机制的分析中,我们也展示了元路径的特点。通过分析不同元路径的已知重要性,所提出的HPN证明了它对于异构图分析的潜在的良好可解释性。

3 语义混淆分析(Semantic confusion analysis)

在这一节中,我们首先简要回顾了异构神经网络,然后证明了异构神经网络和基于多元路径的随机游走本质上是等价的。最后,我们从基于多元路径的随机游走的极限分布的角度解释了为什么会出现语义混淆。

3.1 异构图神经网络(HeteGNNs)

如图3所示,异构网络(如HAN)通常从多个元路径中聚合信息,并在节点级和语义级更新节点嵌入。特别地,如图3(a)所示,给定元路径Φ1和节点i,HAN中的节点级关注聚集具有关注度{αi1Φ1, αi2Φ1, αi3Φ1, αi4Φ1}的基于元路径φ1的邻居{1,2,3,4 }以学习节点i的语义特定的节点嵌入ZiΦ1。
在这里插入图片描述

Fig3

Fig 3 异构网络中典型的节点级和语义级聚合过程——以HAN为例

其中X表示节点特征矩阵,其中第i行对应于第i个节点。σ是一个激活函数,αΦ,k的元素αΦ,kij通过第k层的节点级关注来指定基于元路径的节点对(i,j)之间的学习关注权。注意,αφ,k(行归一化)是一个概率矩阵,Zφ,k通过第k层指定学习的嵌入矩阵,其中第i行对应于第i个节点。如图3(b)所示,给定一个节点i和一组元路径{φ1,φ2,,φP },HAN中的语义级聚合融合了P个语义特定的节点嵌入n个Zφ1 …ZφP带有注意力{βφ1,,βφP }以获得节点i的最终嵌入Zi。语义级聚合如下所示:
在这里插入图片描述
其中Z表示最终的节点嵌入。总之,异构网络通过节点级和语义级的聚合过程为节点嵌入注入了丰富的语义。

这里我们以HAN为代表的HeteGNN来解释分层聚集过程,这种聚集过程在HeteGNN中也是普遍存在的。它们之间的区别在于如何设计不同的聚合函数。因此,我们可以在一个通用的框架中分析这些异构网络(即节点级和语义级的层次聚合过程),并在下一节给出异构网络中语义混淆现象的统一解释。

3.2 异构神经网络和基于多元路径的随机游走之间的关系

作为一种经典的异构图算法,基于多元路径的随机漫步主要包括:基于单元路径的随机漫步和多元路径组合。给定一个元路径φ,我们有基于元路径的概率矩阵Mφ,其元素Mφij表示通过元路径φ从节点i到j的转移概率。然后,基于k步单元路径的随机漫步被定义为:
在这里插入图片描述
其中πφ,k是基于k步单元路径的随机漫步的分布。考虑一组元路径{φ1,φ2,,φP }及其权重{wφ1,wφ2,,wφP },基于k步多元路径的随机漫步定义为:
在这里插入图片描述
其中,πk描述了基于随机漫步的k步多元路径的分布。对于基于k步单元路径的随机漫步:
定理1: 假设一个异构图是非周期且不可约的,如果我们取极限k → ∞,那么基于k步元路径的随机游走将收敛到一个元路径特定的极限分布πφ,lim,它与节点无关:
在这里插入图片描述
证明:因为mφ是一个概率矩阵,所以基于元路径的随机行走是一个马尔可夫链。马氏链的收敛性表明,当我们取极限k → ∞时,πφ,k将收敛到极限分布πφ,lim。显然,πφ,lim仅仅依赖于mφ,与节点无关。通过某些关系连接的不同节点会相互影响,而[18]证明了两个节点之间的影响分布与随机游走分布成正比,如下定理所示:

定理2: ( [18]).对于齐次图上的聚集模型(例如,图神经网络),如果图是非周期且不可约的,那么节点i的影响分布Ii在期望中等价于k步随机游走分布。

通过定理1和定理2,我们得出结论:基于单元路径的随机游走所揭示的影响分布与节点无关。比较Eq2和Eq4,我们发现它们都通过元路径φ传播和聚集信息。区别在于,αφ,k是通过节点级注意学习的参数矩阵,而mφ是预定义的矩阵。因为mφ和αφ,k都是概率矩阵,所以它们实际上是元路径相关的马氏链。因此,如果激活函数是一个线性函数,我们发现异构网络中的节点级聚合本质上等价于基于元路径的随机游走。基于上述分析,我们发现,如果我们在节点级聚合中堆叠无限层,所学习的节点嵌入Zφ将仅受元路径φ的影响,因此与节点无关。因此,学习的节点嵌入不能捕捉每个节点的特征,因此无法区分。对于基于k步多元路径的随机漫步,我们有:

定理3: 假设基于k步单元路径的随机游走是相互独立的,如果我们取极限k → ∞,那么基于k步多元路径随机游走的极限分布是基于单元路径的随机游走极限分布的加权组合,如下所示:
在这里插入图片描述
证明:由于基于k步单元路径的随机漫步相互独立,根据极限的性质,包括求和规则和常数倍数规则,我们有:
在这里插入图片描述
说明元路径组合只能改变极限分布的位置,但极限分布的收敛性保持不变。

通过定理2和定理3,我们得出结论,基于多元路径的随机游走所揭示的影响分布也与节点无关,尽管它们通过多元路径连接。比较Eq3和Eq5,我们可以看到它们都根据权重组合了多个元路径。不同之处在于,HAN中的语义级聚合利用神经网络来学习元路径βφp的权重,而基于多元路径的随机行走则通过手动方式为元路径φp分配预定义的权重wφP。回想一下,在节点级聚合中,通过单个元路径学习的节点嵌入不能捕获每个节点的特征,因此无法区分。在语义级聚合中,异构神经网络将通过多个节点级聚合学习到的多个节点嵌入与语义权重相融合。请注意,语义权重独立于每个节点。综合以上分析,我们得出结论,通过节点级和语义级学习的最终节点嵌入仅受一组元路径的影响,并且仍然无法区分。由于目前的异构网络通常遵循包括节点级和语义级的层次聚合,我们认为这是以前异构网络的关键限制,并导致语义混乱。基于以上分析,为了缓解语义混淆现象,我们可以在节点级或语义级对现有的异构神经网络体系结构进行改进。

4 模型提出

在这一部分,我们提出了一种新的异构图传播网络(HPN),它能够在理论分析的基础上缓解节点级的语义混淆现象。提出的HPN主要包括语义传播机制语义融合机制。受基于元路径的重启随机游走的启发,提出的语义传播机制强调节点级聚合过程中节点的局部语义,缓解节点级语义混乱。语义融合机制能够学习元路径的重要性,并为特定任务获得语义特定节点嵌入的最优加权组合。

4.1语义传播机制

给定一个元路径φ,语义传播机制PΦ首先通过语义投影函数fφ将节点投影到语义空间。然后,它通过语义聚合函数gφ聚合来自基于元路径的邻居的信息,以学习语义特定的节点嵌入,如下所示:
在这里插入图片描述
其中,X表示初始特征矩阵,Zφ表示语义特定的节点嵌入。为了处理异构图,语义投影函数fφ将节点投影到语义空间,如下所示:
在这里插入图片描述
其中Hφ是投影的节点特征矩阵,Wφ和bφ分别表示元路径φ的权重矩阵和偏差向量。注意,hφ也可以看作0阶节点嵌入ZΦ,0,揭示每个节点的特性。为了缓解语义混乱,我们设计了语义聚合函数gφ,如下所示:
在这里插入图片描述
其中,ZΦk表示通过第k层语义传播机制学习的节点嵌入,我们将其作为语义特定的节点嵌入ZΦ。请注意,Hφ反映了元路径φ(也可视为Zφ,0)中每个节点的特征,而MφZφ,k-1意味着从基于元路径的邻居聚集信息。这里γ是一个权标量,它表示聚集过程中节点特征的重要性。

语义聚合函数gφ为什么起作用。 在这里,我们建立了语义聚合函数gφ和基于k步元路径的重启随机游走之间的关系。节点i基于k步元路径的重启随机游走定义为:
在这里插入图片描述
其中i是节点i的单热向量,γ表示重启概率。对于基于k步元路径的重启随机行走:
定理4 假设一个异构图是非周期且不可约的,如果我们取极限k → ∞,那么基于k步元路径的重启随机游动将收敛到ψφ,lim(i),它与起始节点i有关:
在这里插入图片描述
证明:如果我们取极限k → ∞,我们有
在这里插入图片描述
求解Eq14,我们有:
在这里插入图片描述
显然,ψφ,lim(i)与节点i有关。

通过定理2和定理4,我们得出结论:基于元路径的重启随机游走所揭示的影响分布与节点有关。比较Eq11和Eq12,我们发现它们都用适当的权重γ来强调节点的局部语义。根据定理4,我们可以看到语义聚合函数gφ吸收节点的局部语义,使得语义特定的节点嵌入ZΦ,k,即使取极限k → ∞,也是互不相同的。因此,语义传播机制可以缓解语义混乱。因此,语义传播机制可以通过设计良好的语义聚合功能来缓解节点级的语义混乱。

4.2语义融合机制

一般来说,异构图中的每个节点都包含多种类型的语义信息,语义特定的节点嵌入只能从一个方面反映节点。为了更全面地描述节点,我们利用多个元路径来捕获丰富的语义,并从不同的方面描述节点。

给定一组元路径{φ1,φ2,,φP },我们有P组语义特定的节点嵌入{zφ1,zφ2,,zφP}。然后,我们提出了语义融合机制F,为具体任务进行融合。以从语义传播机制中学习到的P组语义特定的节点嵌入为输入,通过语义融合机制F学习到的最终节点嵌入Z,如下图:
在这里插入图片描述
直觉上,并不是所有的元路径都应该平等对待。因此,语义融合机制应该能够区分元路径,并为它们分配不同的权重。为了学习元路径的重要性,我们将每个语义特定的节点嵌入到相同的潜在空间中,并采用语义融合向量q来学习元路径的重要性。元路径φp的重要性定义为:
在这里插入图片描述
其中W和b分别表示权重矩阵和偏置向量,它们对于所有元路径是共享的。请注意,语义融合机制中的所有参数对于所有节点和语义都是共享的。在获得元路径的重要性后,通过softmax函数对其进行归一化,得到每个元路径的权重。表示为βφp的元路径φp的权重定义为:
在这里插入图片描述
显然,βφp越高,元路径p越重要。利用学习到的权重作为系数,我们可以融合P个语义特定的嵌入来获得最终的嵌入Z,如下所示:

在这里插入图片描述
然后我们可以针对具体任务优化整个模型,学习最终的节点嵌入。请注意,语义融合机制非常灵活,可以针对各种类型的任务进行优化。对于不同的任务,每个语义可能做出不同的贡献,这意味着βφ可能会有很大的变化。

4.3损失函数

对于半监督节点分类,我们在HPN计算交叉熵并更新参数:
在这里插入图片描述
其中C是投影矩阵,它将节点嵌入投影为节点标签向量,YL是有标签节点的集合,Yl和 Zl分别是标签向量和标签节点i的嵌入。

对于无监督的节点推荐,我们利用负采样的BPR损失来更新HPN的参数:
在这里插入图片描述
其中(u,v)∈Ω和(u,v‘)∈Ω ̄分别表示从所有未观测节点对采样的观测(正)节点对集合和负节点对集合。

4.4模型分析

我们首先分析了所提出的HPN和以前的模型(即HAN和ResNet )之间的关系。HAN和HPN都是HeteGNN,但仍有如下不同:(1)动机不同。HAN的目的是了解邻居在聚合过程中的重要性,而HPN的目的是缓解语义混乱,加深异构网络。(2)架构不同。HPN消除了耗时的自注意力,设计了一个特殊的聚合模型,该模型可以强调聚合过程中的局部语义。如果我们设置γ = 0,这意味着HPN不能吸收局部语义,那么HAN和HPN都将发生语义混淆。虽然ResNet 和HPN都使神经网络比以前更深入,但它们仍然有如下不同:(1)不同的动机。ResNet旨在避免梯度消失,使学习过程更容易,而语义传播机制旨在缓解语义混乱。(2)方法不同。残差连接F(x) + x连接两个隐藏层,而语义传播机制以权重γ强调局部语义。

**所提出的HPN在聚集过程中没有可学习的参数。因此,即使我们为多层堆叠语义传播机制,HPN的总参数数量保持不变,使得HPN成为具有较低参数复杂性的空间高效模型。**此外,所提出的HPN也是时间有效的,可以很容易地并行化。给定一个元路径φ,语义传播机制的时间复杂度为(vφsφ+EΦ),其中vφ是节点数,EΦ是基于元路径的节点对数,SΦ是语义特定转换函数的隐藏层大小。HPN的整体复杂性与节点数量和基于元路径的节点对成线性关系。所提出的HPN对于特定的任务具有潜在的良好的可解释性,这对于异构图分析是一个很大的优势。受益于语义融合机制,所提出的HPN能够学习特定任务的元路径的重要性。通过分析元路径的学习注意值,我们可以检查哪些元路径在特定任务中做出了更高(或更低)的贡献,这也得到第5.7节中实验结果的验证。

5实验

5.1数据集和基线

我们在真实世界的异构图上进行实验。详细说明见表1。
在这里插入图片描述
Fig4

Fig 4 异构图的网络模式。(a) IMDB。(b) Yelp。© ACM。(d)MovieLens。

我们比较了一些最先进的基线,包括(异构)网络嵌入和(异构)神经网络,以验证所提出的HPN的有效性。同时,我们还测试了HPN的两个变体(即HPNpro和HPNfus),以验证我们模型中不同部分的有效性。
metapath2vec(简称MP2 vec)[29]/HERec[30]:两种经典的异构图嵌入方法,它们执行基于metapath的随机遍历,并利用skip-gram嵌入异构图。
-GCN/GAT/PPNP :为齐次图设计的三个经典图卷积网络。
-MEIRec :这是一个异构图神经网络,能够通过多个元路径集成丰富的语义。
-HAN:它是一个完全基于注意机制的异构图神经网络,同时使用节点级注意和语义级注意。
-HGT:它是一个异构图形神经网络,通过基于异构相互关注的元关系三元组来聚合信息。我们删除了HGT的相对时间编码,因为我们的数据集是静态异构图。
-MAGNN(简称MGN):这是一个异构图形神经网络,利用关系旋转编码器在复杂空间中聚合语义。–HPNpro:这是HPN的一个变体,它将重启概率γ设置为0。
-HPNfus:它是HPN的变体,在所有元路径上取简单平均值。

这里,我们用高斯分布随机初始化参数,并利用Adam优化模型。对于所提出的HPN,我们将学习率设置为0.01,将正则化参数设置为5e-3,将语义融合关注向量q的维数设置为32,将dropout设置为0.5。我们使用耐心为100的早期停止,也就是说,如果验证损失连续100个时期没有减少,我们就停止训练。对于GCN、GAT、PPNP、MEIRec和HAN,我们使用验证集来优化他们的参数。对于基于单元路径的方法,包括元路径2和元路径3,我们用不同的元路径测试它们的性能,并报告所有元路径的最佳性能。对于包括GCN、GAT和PPNP在内的同构图神经网络,我们通过不同的对称元路径将原始异构图转化为多个同构图,并报告所有元路径的最佳性能。对于所有的神经网络,包括GCN、GAT、PPNP、HAN、MEIRec,我们将完全相同的训练集、验证集和测试集分开,以确保公平。请注意,对于所有的GNN,我们用不同的层测试它们的性能,并报告最佳性能。原因是随着模型深度的增长,一些图神经网络的性能开始退化(如HAN)。例如,我们对所有数据集使用1层HAN(详情见第5.6节)。对于随机行走模型(例如,metapath2vec和HERec),我们将窗口大小设置为5,行走长度设置为100,每个节点的行走设置为40,负样本数量设置为5。为了公平比较,我们将所有模型的嵌入维度设置为64。对于节点推荐,我们统一采样一个负样本来计算BPR损失,并将dropout设置为0.5,学习率设置为1e-5,正则化设置为1e-5。我们将在接受后发布HPN的代码和数据集。

5.2节点聚类

为了比较无监督模型(即metapath2vec和HERec)和半监督模型(即GCN、GAT、PPNP、MEIRec、HGT、MAGNN、HAN和HPN),在前面的工作基础上,我们通过前馈获得所有模型的学习节点嵌入,然后利用经典节点聚类来测试它们的有效性。在这里,我们利用K均值来执行节点聚类,并且聚类的数量被设置为类的数量。我们选择NMI和ARI来评估聚类任务,并在表2中报告10次运行的平均结果。

可以看出,我们提出的HPN比所有基线都好得多。这表明了减轻异构网络语义混乱的重要性。我们还发现图神经网络总是比网络嵌入方法表现更好。此外,包括HAN、MEIRec、HGT、MAGNN和HPN在内的异构图神经网络优于同构神经网络,因为它们能够捕捉丰富的语义,更全面地描述节点的特征。请注意,HPNpro和和HPNfus的性能都表现出不同的退化,这意味着语义传播机制和语义融合机制的重要性。基于以上分析,我们可以发现所提出的HPN能够有效地传播和融合语义信息,并显示出显著的改进。

5.3节点分类

除了节点聚类,节点分类也是评估节点嵌入的有效方法。图形神经网络一旦训练好,就可以通过前馈得到所有的节点嵌入。这里,我们使用KNN分类器(k = 5)执行节点分类,并选择macro-F1和micro-F1作为评估指标。为了更稳定的比较,我们重复该过程10次,并将平均结果报告在表3中。
在这里插入图片描述
如表3所示,提议的HPN总体表现优于基线。可以看出,结合结构和特征信息的基于图神经网络的方法通常比不考虑特征信息的图嵌入方法(即metapath2vec和HERec)表现更好。随着对这些模型的深入了解,能够学习节点或元路径权重的基于注意力的模型(即GAT、HAN、HGT、MAGNN和HPN)通常表现更好。虽然MEIRec、HGT、MAGNN、汉和HPN是为异构图形设计的,但HPN仍然显示出它的优越性。原因是HPN可以通过堆叠更多层来捕获高阶语义,并吸收节点的局部语义。与HPN相比,HPN的两个变体(HPNpro和HPNfus)表现出不同的性能退化,表明语义传播机制和语义融合机制的重要性。总之,HPN通常优于所有最先进的基线。

5.4节点推荐

在[23]、[26]之后,我们在无监督节点推荐任务上测试所有模型。这里我们选择了四个指标来评估推荐结果,包括precise@10、recall@10、hit@10和ndcg@10。

实验结果如表4所示。从表4中,我们可以发现提出的HPN优于所有基线。异构GNN通过捕捉丰富的语义显示出它们的优势。基于注意力的神经网络通常通过区分节点或元路径的重要性表现得更好。通过堆叠多个层,HPN能够探索高阶语义,这是推荐中的关键协作信号。请注意,HPNfus的性能与HPN相似,因为所有元路径的贡献相同。
在这里插入图片描述

5.5节点可视化

为了更直观地进行比较,我们执行节点可视化的任务。具体来说,我们使用t-SNE [34]将学习过的节点嵌入投影到二维空间中,并将它们可视化。以ACM为例,我们将图5中学习的论文嵌入可视化。每个点表示一篇论文,其颜色表示研究领域。

从图5中,我们可以观察到同质的神经网络表现不佳。属于不同研究领域的论文相互混杂。与同质GNNs相比,HAN的性能稍好。但是,界限还是模糊的。基于可视化结果,我们可以发现所提出的HPN能够学习比所有基线更具代表性的节点嵌入,因为属于不同研究领域的论文位于不同的位置,具有明确的边界。得益于语义传播机制,所提出的HPN能够构造高阶语义结构,并学习更多的代表性节点嵌入。
Fig5

Fig 5 ACM上的可视化纸嵌入。每个点表示一篇论文,其颜色表示研究领域。

5.6对模型深度的鲁棒性

HPN的一个显著特点是引入了语义传播机制,这种机制能够消除语义混乱,构建一个更深、更强大的异构神经网络。与以前的混合神经网络(如HAN)相比,所提出的HPN算法可以堆叠更多的层并学习更多的代表性节点嵌入。为了展示语义传播在HPN的优势,我们用1、2、3、4、5层测试了HAN和HPN,如图6所示。可以看出,随着模型深度的增长,HAN在ACM和IMDB上的性能越来越差。回想第二节的理论分析,我们认为这种现象是语义混乱,导致了以前的异构GNNs(如HAN)的退化。显然,语义混淆使得HeteGNNs很难成为一个真正的深度模型,这严重限制了它们的表示能力,并损害了下游任务(例如节点聚类)的性能。另一方面,随着模型深度的增长,提出的HPN算法性能越来越好,表明语义传播机制能够有效缓解语义混乱。因此,即使堆叠更多的层,通过提出的HPN学习的节点嵌入仍然是可区分的。总之,所提出的HPN能够捕获高阶语义,并以更深的体系结构学习更具代表性的节点嵌入,而不是学习不可区分的节点嵌入。

5.7语义融合机制分析

HPN的一个有趣的特点是引入了语义融合机制,该机制可以了解元路径的重要性,并将它们融合到特定的任务中。为了更好地理解元路径的重要性,我们对语义融合机制进行了详细的分析。这里我们进行两种类型的语义融合实验,如图7和图8所示。我们首先展示了具有固定层数的元路径的重要性。然后,我们通过展示元路径的重要性如何随着模型深度的增长而变化来发现元路径的传播特性。

5.7.1固定深度的语义融合机制。

本文分析了基于五层HPN的自动文摘数据集的语义融合机制。如图7所示,不同的元路径显示不同的有效性,语义融合机制为它们分配不同的关注权重。NMI越高,元路径越有用。提出的HPN为更多用户的元路径分配了更高的权重,这意味着语义融合机制能够为特定任务适当地融合多个元路径。在Yelp中,元路径B-U-B比其余的重要得多。由于元路径的重要性可能有很大不同,如果我们平等地对待这些元路径(例如,HPNfus),性能将会显著下降。对于ACM来说,HPN给了P-A-P更大的权重,这意味着HPN认为P-A-P是确定论文研究领域的更关键的元路径。我们也发现虽然P-A-P表现出了优于P-S-P的优势,但是差距并不是很大。它可以解释为什么HPNfus在所有元路径上简单平均操作的ACM上仍然工作得很好。我们可以在IMDB上找到类似的现象。M-A-M表现稍好于M-D-M,因此HPNfus的平均运算性能良好,如表3和表2所示。总之,语义融合机制可以区分元路径的不同,并为它们分配适当的权重。

5.7.2不同深度的语义融合机制。

然后,我们测试了不同深度的语义融合机制(如1、2、3、4、5层的HPN)。每个元路径的传播属性可以有很大不同,即在传播了几个步骤后,元路径的重要性可能会发生很大变化。以ACM为例,我们在图8中展示了元路径的权重是如何随着层数的不同而变化的。可以看出,经过几个步骤的传播,P-S-P的注意力权重越来越高,而P-A-P的注意力权重越来越低,这表明P-S-P越来越重要。当对这种现象有更深入的了解时,我们发现P-A-P可能会将属于不同研究领域的两篇论文联系起来,因为一些作者有不同的研究兴趣,在不同的研究领域发表论文。所以语义传播过程会通过P-A-P引入一些噪声,把不同研究领域的论文混在一起,使得它们的嵌入无法区分。相反,通过P-S-P连接的论文由于主题相同,总是属于同一研究领域。所以即使传播了几步,P-S-P还是把论文的特点区分的很清楚。解释了为什么随着模型深度的增长,语义融合机制更加关注P-S-P。总之,不同的元路径具有不同的传播特性,语义融合机制能够为它们分配合适的关注权重。
在这里插入图片描述

Fig 8 不同元路径(1、2、3、4、5层)通过HPN学习到的注意力权重。

5.8参数实验

在这一节中,我们研究了参数的敏感性,并在图9中报告了带有各种参数的ACM数据集上的聚类结果。

最终嵌入的尺寸。 我们首先测试最终嵌入尺寸的效果。结果如图9(a)所示。我们可以看到,随着嵌入维度的增长,HPN的业绩先上升后保持稳定。原因是更高的维度可以编码更多的语义,合适的维度可以捕捉所有的语义。对于ACM数据集,当最终嵌入Z的维数设置为64时,所提出的HPN达到最佳性能。
重启概率γ的值。 为了检查重启概率γ的影响,我们研究了具有不同γ值的建议HPN的性能,并在图9(b)中显示了它们。请注意,当γ值设置为0时,重新启动过程被删除。这里更大的γ意味着所提出的HPN更关注局部语义。我们可以发现重启过程(γ > 0)可以提高HPN性能。但是γ越大性能越差。合适的γ能够适当平衡局部语义和全局语义,提高性能。这里,当重启概率γ被设置为0.1时,HPN获得最佳性能。
语义融合向量q的维度。 由于语义融合机制的能力受注意向量q维度的影响,我们改变其维度并测试HPN的性能。结果如图9©所示。随着q维数的增加,HPN性能开始时有所提高,当q维数大于32时,性能显著下降。一个可能的原因是在语义传播机制中没有可学习的参数,因此更大维度的注意向量q将显著增加HPN的参数总数并导致过度拟合。
在这里插入图片描述

Fig 9 ACM上HPN的参数研究。

7结论

本文探讨了异构神经网络中的语义混淆现象,即随着模型深度的增长,通过异构神经网络学习的节点嵌入变得不可区分,导致性能下降,限制了它们的表示能力和应用。我们通过证明异构神经网络和基于多元路径的随机漫步本质上是等价的来解释语义混淆。然后,我们提出了一种新的异构图传播网络(HPN)来缓解节点级语义混乱,该网络主要由语义传播机制和语义融合机制组成。具体来说,语义传播机制用一个节点级聚合过程中的适当权重,缓解深度异构神经网络架构下的语义混乱。并且,语义融合机制旨在融合丰富的语义,从不同角度全面描述节点。实验结果表明了所提出的HPN算法的优越性。更重要的是,我们分析了元路径的重要性和传播特性,这可能有助于理解异构图。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值