【论文解读】HOHGCN - Higher-Order Heterogeneous Graph Convolutional Network Based on Meta-Paths


论文题目: 基于元路径的高阶异构图卷积网络
论文作者:

摘要

图卷积网络是一种有效的图表示学习方法。元路径连接不同类型的节点,被广泛用于表示异构图中的各种语义。受此启发,我们设计了一种基于元路径的高阶异构图卷积网络。它不仅选择了一些元路径,而且还捕获了具有重要的高阶关系(如公共关系)的高阶元路径。此外,还提出了一种基于高阶元路径的邻接矩阵计算方法和一种新颖的异构图卷积网络来生成节点嵌入。在每个消息传递步骤中,它线性地聚合来自高阶元路径邻居的信息。计算复杂度分析表明,该模型具有较高的计算效率,适用于大规模异构图。我们提出的模型在三个真实世界的异构图中表现得比最先进的结果更好:DBLP、IMDB和Amazon Kindle Review。分类实验表明,基于元路径的高阶邻接矩阵的计算使DBLP和IMDB的平均准确率提高了2.23%。
关键词: 异构图、网络嵌入,图卷积网络

1 引言

许多真实世界的数据都直观地建模为图。这些包含不同类型节点或边的图通常称为异构图(或异构信息网络[1]),如电子商务网络、书目网络和知识图。异构图不仅对复杂的网络结构建模,而且保留了丰富的原始信息。因此,它对数据挖掘具有重要的作用,并得到了越来越多的应用。在异构图中,元路径[2]被定义为起始节点类型和结束节点类型之间的复合关系。例如,元路径AP C (Author- paper -Conference)以节点类型“Author”开始,以节点类型“Conference”结束,它描述了在会议上发表论文的作者之间的关系。元路径是一种常用的结构特征提取方法,并在此基础上对相邻节点进行信息收集。在某种程度上,元路径的选择在很大程度上决定了数据挖掘的性能。通常,有两种选择元路径的主要方法

  • 方法一:由领域专家利用先验知识[3]-[5]选择最优元路径。所选择的元路径是严格的关系描述符,不能容纳关系中的方差,导致只有一小部分路径匹配元路径[6]。
  • 方法二:使用所有不超过预定义长度的元路径maxLen[2],[7],[8]。但是,由于maxLen中元路径的数量呈指数级增长,选择大量元路径是不可避免的。

因此,需要一种新的元路径选择方法来避免上述方法的缺点。在GraRep[9]和MixHop[10]中,高阶邻居(例如2-hop邻居和3-hop邻居)已经被证明对图分析任务很有用。对于异构图,我们注意到高阶元路径(参见第三节中高阶元路径的定义)包含特殊的含义。特别是2条多重元路径,即回文,它们表示公共关系:APA表示合著关系,PTP表示包含一个共同术语的两篇论文,APCPA表示在同一会议上发表的两篇论文,等等。如果两个节点通过高阶元路径连接,则它们之间存在高阶关系。
本文提出了高阶元路径,它考虑了高阶关系(如公共关系),选择了少量的元路径。高阶元路径可以通过以下两个步骤获得。首先,选择不大于K的元路径, K = 2通常是足够的。第二,将每个元路径扩展为更高阶的元路径。例如,元路径APC可以扩展为高阶的元路径APC、APCPA、APCPAPC等。这是因为我们的第二步将元路径扩展为更高阶的元路径。例如,为了得到元路径APCPA(这在DBLP中很重要),方法II的maxLen需要为4,而我们的方法简单地使用K = 2得到元路径APC,然后将APC扩展为2倍的元路径APCPA。
图神经网络(gnn)[11] -[15],特别是图卷积网络(GCNs)[11],[12]是一种强大的图表示学习方法。它们的嵌入结果在各种图形分析任务中都很有用,包括分类、链接预测和可视化。然而,大多数现有的gnn都是为同构图设计的,这些同构图无法学习通用嵌入来混合不同元路径的信息。
在异构图分析任务中,设计了一种基于元路径的高阶异构图卷积网络(HOHGCN)。在每个消息传递步骤中,HOHGCN从不同的高阶元路径收集信息,然后线性混合这些信息。具体来说,我们的主要贡献如下:

  • 我们提出了高阶元路径,它不仅减少了被选择的元路径的数量,而且捕获了重要的高阶关系,如公共关系。得益于高阶元路径,HOHGCN在不影响实验结果的情况下显著减少了训练时间。
  • 提出了一种基于高阶元路径的邻接矩阵计算方法。首先对基于关系的邻接矩阵进行规格化,然后根据高阶元路径对其进行乘法。在DBLP、IMDB和Amazon Kindle Review实验中,该算法降低了大量邻居节点的影响,分别提高了1.72%、2.75%和0.19%的准确率。
  • 我们的HOHGCN 混合了来自不同高阶元路径的信息。我们设计了实验来评估它的性能,证明我们的模型与最先进的基线的最佳结果相比有0.97%到1.45%的性能改进。HOHGCN算法效率高,适用于大规模异构图。同时,它能够学习在训练中从未出现的节点的嵌入,可以很容易地应用于动态图。

2 相关工作

图神经网络 近年来,以图结构数据为模型的图神经网络[11]-[13]、[15]是研究热点。它们聚合来自邻居的信息来生成节点嵌入。例如,在GCN[12]中,使用标准化邻接矩阵收集邻居的信息,然后使用卷积聚合器学习嵌入,如下所示
HetGNN[17]首先对异构邻居节点进行随机游走采样,然后按类型分组邻居节点,然后对每个分组的节点信息进行聚合,最后将不同分组的信息聚合到最终的嵌入中。最终的嵌入可用于节点分类、聚类、链接预测和推荐。
网络嵌入 它的目的是从图结构中学习节点的低维潜在表示。受word2vec[18]的启发,在DeepWalk[19]和node2vec[20]中,使用随机漫步生成节点序列(类比句子),然后使用SkipGram从节点上下文学习节点嵌入。与DeepWalk类似,LINE[21]通过直接近邻的相似性和2-hop近邻的相似性来学习节点嵌入。除此之外,还有许多其他的方法,如基于自编码的方法[22],[23],基于矩阵分解的方法[9],[24],以及基于对抗生成网络[25]-[28]的方法。上述方法是针对齐次图设计的。针对模型异构图,提出了一种基于元路径的随机漫步方法metapath2vec[29]。此外,HIN2vec[7]从节点之间的关系中学习节点和元路径的嵌入。

3 相关定义

4 模型

我们对基于高阶元路径的消息传递感兴趣,节点在每一步都从它们的基于高阶元路径的邻居那里收集信息。众所周知,GCNs通过邻居收集信息的功能非常强大。所以我们设计了基于GCNs的模型。该模型学习从邻居信息中生成表示。首先,介绍了获取高阶元路径邻接矩阵的方法。然后,我们提出的HOHGCN描述,它从上述邻接矩阵和节点的特征学习表示。最后给出了利用HOHGCN输出的分类方法

6 结论

本文分析了目前常用的元路径方法,并指出了它们的不足之处。为了解决这个问题,我们提出了高阶元路径,它不仅会导致一些元路径,而且还包含各种特殊的含义(比如公共关系)。为了降低节点邻域多的影响,设计了一种基于高阶元路径的邻接矩阵计算方法,在DBLP和IMDB的节点分类实验中,准确率分别提高了1.72%和2.75%。提出了一种新的异构图卷积网络来生成节点表示,该网络从基于高阶元路径的邻居处收集信息。计算复杂度分析表明,该模型具有较高的计算效率,可用于大规模异构图的计算。我们的可视化和分类实验证明,我们的HOHGCN在三个真实数据集上优于最先进的方法。与性能最好的基线相比,节点分类任务的准确率提高了0.97% ~ 1.45%。
对于具有多种边的图,我们必须使用较大的嵌入维数来编码来自各种高阶元路径的信息。在未来,我们计划学习每条路径的意义,然后根据这些重要的路径生成节点嵌入


总结
本文提出了一种高阶元路径,来捕获重要的高阶关系,并且设计了基于高阶元路径的邻接矩阵计算方法,最后聚合邻居信息是采用GCN的方式。
局限性也就在于使用线性聚合,没有考虑到每条元路径的重要程度

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值