【论文解读 WWW2020】MAGNN - Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding


论文链接:
代码链接:
作者:香港中文大学
参考阅读: https://blog.csdn.net/byn12345/article/details/105101492

摘要

大量真实世界的图或网络本质上是异构的,涉及到节点类型和关系类型的多样性。异构图嵌入是将异构图的丰富结构和语义信息嵌入到低维节点表示中。现有模型通常在异构图中定义多个元路径,以捕获复合关系并指导邻域选择。但是,这些模型要么忽略节点内容特性,要么丢弃元路径上的中间节点,要么只考虑一个元路径。为了解决这三个限制,我们提出了一种名为元路径聚合图神经网络(MAGNN)的新模型来提高最终性能。具体来说,MAGNN使用了三个主要组件即节点内容转换来封装输入节点属性,元路径内聚合来合并中间语义节点,以及元路径间聚合来合并来自多个元路径的消息。在三个真实世界的异构图数据集上进行了大量的实验,用于节点分类、节点聚类和链接预测,实验表明,MAGNN比最新的基线获得了更准确的预测结果。

1 引言

许多真实世界的数据集自然地以图数据结构表示,其中对象和它们之间的关系分别由节点和边体现。例如社交网络[14,29]、物理系统[2,10]、交通网络[18,34]、引文网络[1,14,16]、推荐系统[26,35]、知识图[3,24]等。图独特的非欧几里德性质使得传统的机器学习模型难以对其进行建模。对于每个节点的邻域集,没有顺序和大小的限制。然而,大多数统计模型都假设在欧几里得空间中有一个有序和固定规模的输入。因此,如果节点可以在欧几里得空间中用有意义的低维向量表示,然后作为其他机器学习模型的输入,将是有益的。
针对图结构提出了不同的图嵌入技术。LINE[25]通过利用节点之间的一阶和二阶接近来生成节点嵌入。基于随机游走的方法包括DeepWalk[21]、node2vec[13]和TADW[32],将随机游走生成的节点序列发送到跳gram模型[19],以学习节点嵌入。随着深度学习的快速发展,图神经网络(gnn)被提出,它使用专门设计的神经层来学习图表示。基于谱的gnn,包括ChebNet[8]和GCN[16],在整个图的傅里叶域中执行图卷积操作。最近的基于空间的gnn,包括GraphSAGE[14]、GAT[28]和许多其他变体[17,34,35],通过直接在图域执行图卷积操作,解决了基于频谱模型的可伸缩性和泛化能力的问题。越来越多的研究人员开始关注这一有前景的领域。
尽管gnn在许多任务中取得了最先进的结果,但大多数基于gnn的模型都假设输入是只有一种节点类型和一种边类型的同构图。大多数真实世界的图由与不同特征空间的属性相关的各种类型的节点和边组成。例如,一个合著网络至少包含两种类型的节点,即作者和论文。作者属性可能包括从属关系、引用和研究领域。论文属性可能包括关键词、地点、年份等。我们把这种图称为异构信息网络(HINs)或异构图。在图结构和节点内容方面的异构性使得对GNNs来说把它们丰富多样的信息编码成低维向量构成了挑战。
现有的异构图嵌入方法大多基于元路径的思想。元路径是定义在网络模式上的节点类型和边缘类型的有序序列,它描述了所涉及的节点类型之间的复合关系。例如,在一个有作者、论文和地点的学者网络中,作者-论文-作者(APA)和作者-论文-地点-论文-作者(APVPA)是描述作者之间两种不同关系的元路径。APA元路径关联了两个共同作者,而APVPA元路径关联了在同一地点发表论文的两个作者。因此,我们可以把元路径看作是两个节点之间的高阶接近。由于传统的gnn平等地对待所有节点,它们无法在异构图中建模复杂的结构和语义信息。
虽然这些基于元路径的嵌入方法在节点分类和链接预测等各种任务上都优于传统的网络嵌入方法,但它们至少还存在以下限制之一。(1)模型没有利用节点内容特性,所以它很少在具有丰富节点内容特性(例如metapath2vec[9]、ESim[22]、HIN2vec[11]和HERec[23])的异构图上表现良好。(2)模型丢弃了元路径上的所有中间节点,只考虑了两个端点节点,导致信息丢失(如HERec[23]和HAN[31])。(3**)模型依赖单一元路径嵌入异构图**。因此,该模型需要手动的元路径选择过程,并且丢失了来自其他元路径的信息,导致性能不佳(例如,metapath2vec[9])。
为了解决这些限制,我们提出了一种新的元路径聚合图神经网络(MAGNN)用于异构图嵌入。通过应用节点内容转换、元路径内聚合和元路径间聚合来生成节点嵌入,MAGNN解决了上面描述的所有问题。具体来说,MAGNN首先应用特定类型的线性转换,将异构节点属性(不同节点类型的维度可能不相等)投射到相同的潜在向量空间。接下来,MAGNN使用注意机制[28]对每个元路径应用元路径内聚合。在这个元路径内聚合过程中,每个目标节点从连接节点与其基于元路径的邻居的元路径实例中提取并组合信息。通过这种方式,MAGNN从相邻节点和中间的元路径上下文捕获异构图的结构和语义信息。在元路径内聚合之后,MAGNN进一步利用注意力机制进行元路径间聚合,将多个元路径获得的潜在向量融合到最终的节点嵌入中。通过集成多个元路径,我们的模型可以学习异构图中全面的语义。


总之,这项工作做出了几个主要贡献:

  • 提出了一种用于异构图嵌入的元路径聚合图神经网络。
  • 我们设计了几个候选的编码函数来从元路径实例中提取信息,其中一个基于复杂空间[24]中的关系旋转思想。
  • 我们在IMDb和DBLP数据集上进行了大量的实验,用于节点分类和节点聚类,以及在Last.fm数据集用于链路预测,以评估我们提出的模型的性能。在所有这些数据集和任务上的实验表明,MAGNN学习到的节点嵌入始终优于其他先进基线生成的节点嵌入。

2 定义

3 相关方法

4 方法

5 实验

6 结论

本文提出了一种新的元路径聚合图神经网络(MAGNN)来解决现有异构图嵌入方法的三个典型局限,即(1)丢失节点内容特征(2)丢弃沿元路径的中间结点(3)只考虑一个元路径。具体来说,MAGNN应用了三个构建块组件:(1)节点内容转换,(2)元路径内聚合,(3)元路径间聚合来分别处理每个限制。此外,我们定义了元路径实例编码器的概念,它用于提取元路径实例中固有的结构和语义信息。我们提出了几个候选的编码器函数,其中一个受RotatE知识图嵌入模型[24]的启发。在实验中,MAGNN在三个真实数据集上在节点分类、节点聚类和链接预测任务中取得了最先进的结果。消融研究也证明了MAGNN的三个主要成分在增强嵌入性能方面的有效性。我们计划将该异构图嵌入框架应用于用户-物品数据辅助下的评价预测(推荐)任务,并引入异构知识图[30]。


总结
与HAN的不同之处:解决了HAN上丢弃元路径中间节点的缺陷。

但MAGNN依然是依赖于元路径的,有需要人工定义元路径的缺陷

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
aggregated 2023-04-02-165528 ips” 是一个词组,其中“aggregated” 表示聚合的意思,而 “2023-04-02-165528 ips” 是一个时间标记。这个词组可能指的是聚合了从2023年4月2日16:55:28开始的某个时间段的IPS(入侵预防系统)数据。 IPS是一种网络安全技术,用于监控和阻止网络中的入侵行为。它通过分析网络流量、检测潜在的入侵行为并采取相应的防御措施来保护网络安全。在指定的时间段内,可能会有许多来自各种来源的网络流量需要被分析和处理。为了更有效地分析和应对入侵行为,这些数据往往需要被聚合或合并起来进行处理。 当我们看到“aggregated 2023-04-02-165528 ips”这个词组时,可以联想到网络安全团队正在对特定时间段内的IPS数据进行聚合处理。他们可能会将多个源自不同服务器、设备或网络部署的IPS数据收集起来,通过聚合处理分析入侵情报,寻找异常行为,并采取适当的行动来保护网络安全。 这个过程可能包括对数据进行清洗、归类和整合,并利用各种分析工具来发现潜在的入侵行为。通过聚合IPS数据,网络安全团队可以更好地了解网络中的威胁情况,及时采取措施以应对潜在的安全风险。 总之,"aggregated 2023-04-02-165528 ips"可能表示聚合了2023年4月2日16:55:28开始的某个时间段内的IPS数据,用于进行网络安全分析和防御。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值