【论文解读 | IJCAI2020】NSHE - Network Schema Preserving Heterogeneous Information Network Embedding


论文链接: Network Schema Preserving Heterogeneous Information Network Embedding
代码链接: https://github.com/Andy-Border/NSHE
作者:北邮赵健安等人,另一篇 HGSL

摘要

随着异构网络的日益普及,异构信息网络(HIN)嵌入技术在保持异构结构的同时将节点投射到低维空间中,近年来受到越来越多的关注。现有的许多HIN嵌入方法采用元路径引导的随机游走,以保持不同类型节点之间的语义和结构相关性。然而,元路径的选择仍然是一个有待解决的问题,它要么依赖于领域知识,要么依赖于标签信息。作为HIN的统一蓝图,网络模式包含了全面的高阶结构和丰富的语义。本文首次对保留HIN嵌入的网络模式进行了研究,并提出了一种新的模型NSHE。在NSHE中,首先提出了一种网络模式抽样方法来生成子图(即模式实例),然后构建多任务学习任务来保留每个模式实例的异构结构NSHE除了保留成对结构信息外,还能保留高阶结构(即网络模式)。在三个真实数据集上的大量实验表明,我们提出的模型NSHE明显优于最新的方法。

1 引言

网络嵌入是一个很有前景的研究领域,其目的是将网络的节点投射到低维空间,同时保留网络的结构属性[Cui等人,2019]。现有的网络嵌入方法大多集中在同构网络上。然而,随着交互系统的发展,异构信息网络(HINs) [Sun et al., 2011],它由多种类型的实体和链接组成,已经成为建模复杂交互行为的强大工具。为处理无处不在的异构网络数据,表征学习在HIN上越来越受到关注[Dong et al., 2017;Fu等人,2017],并广泛应用于各种现实世界的应用,包括节点分类、聚类和推荐。
为了学习HIN上的节点表示,已经提出了HIN嵌入方法[Dong等人,2017;Fu等人,2017;Shi等人,2019;Zhang等人,2018;他等人,2019年],其中许多利用元路径引导的随机游走,以保持不同类型节点之间的语义和结构相关性。通常,元路径是HIN中两个节点之间的关系序列。例如,给定一个书目HIN(四种类型的节点:作者(a)、论文§、V enue (V)和term (T);如图1(a)所示,图1(b)显示了两个元路径APA和APVPA,它们分别描述了两个作者之间的合著者或共同地点结构。基于元路径的随机游走将节点序列限制在预定义的元路径上,进一步捕获高阶语义结构
尽管元路径引导下的HIN嵌入方法取得了成功,但元路径的选择仍然是一个开放而具有挑战性的问题[Sun et al., 2011]。元路径方案的设计很大程度上依赖于领域知识。基于先验知识手动选择元路径可能对简单HIN有效,而对复杂HIN很难确定元路径。此外,不同的元路径会从不同的角度产生不同的嵌入,这就导致了另一个具有挑战性的问题,即如何有效地融合不同的嵌入来生成统一的嵌入现有的一些工作[Shi等,2019;Wang等人,2019;Hu等人,2019b]利用标签信息引导嵌入融合;不幸的是,这不适用于无监督的场景

为了应对上述挑战,我们观察到网络模式[Sun et al., 2011]作为HIN的统一蓝图,全面保留了HIN中的节点类型及其关系。由于网络模式是HIN的元模板,在它的引导下,我们可以从HIN中提取子图(即模式实例)。如图1©和(d)所示,我们可以看到模式实例除了描述两个节点的一阶结构信息(即两两结构)外,还描述了这四个节点的高阶结构信息。此外,模式实例还包含丰富的语义,即模式实例(如图1(d)所示)自然描述了总体信息,如作者、术语、论文地点以及它们之间的关系。更重要的是,网络模式不同于元路径,它是HIN的独特结构,因此我们不需要领域知识来进行选择。网络模式的这些优点促使我们对保持网络模式的HIN嵌入进行研究。

然而,这不是一项简单的任务。**首先,如何有效地保持网络模式结构?**网络模式结构通常包含所有类型的节点。广泛使用的随机游走(有/无元路径)策略不能保证访问所有类型的节点和链路,因此不适合保存网络模式。此外,在网络模式结构中,各种类型的节点数量通常相差很大,这就导致了偏差问题。例如,一篇论文与一个地点有关,但与许多术语有关。此外,如何捕捉网络模式中节点和链接的异构性?我们需要精心设计一种既保持网络模式结构又考虑节点和链路异构性的方法。


本文首次尝试研究了保持异构信息网络嵌入的网络模式,并提出了一个新的模型NSHE。NSHE基于异构图卷积网络生成的节点嵌入,通过从HIN中采样的节点对和模式实例进行优化嵌入。特别是在网络模式保持组件中,我们提出了一种网络模式抽样方法,该方法生成自然保持模式结构的子图(即模式实例)。此外,对于每个模式实例,构建一个多任务学习模型来预测实例中的每个节点和其他节点,从而解决异构性的挑战。我们的主要贡献如下:

  • 据我们所知,我们首次尝试了保留HIN嵌入的网络模式结构,既保留了HIN的高阶结构,又缓解了元路径引导的HIN嵌入的元路径选择困境
  • 我们提出了一种新的模型NSHE,在该模型中提出了一些精细的设计,如网络模式抽样和多任务学习,以解决模式结构的保持和异构性的挑战
  • 我们在三个真实数据集上进行了广泛的实验,以验证NSHE的有效性,并与最先进的方法进行了比较。

2 相关工作

我们的工作与网络嵌入有关,它将网络中的节点分配给低维表示,并有效地保持网络结构。例如,保持邻居结构的网络嵌入[Perozzi等,2014],二阶结构的保持网络嵌入[Tang等,2015;Wang et al., 2016],以及保持网络嵌入的社区结构[Wang et al., 2017]。这些网络嵌入方法大多集中于同质网络,详细综述见[Cui et al., 2019]。
随着异构网络数据在现实应用中的蓬勃发展,HIN嵌入方法受到了越来越多的研究关注。大多数现有的方法利用元路径来捕获HIN结构。例如,ESim [Shang et al., 2016]接受元路径作为指导,学习节点嵌入,进行相似度搜索。Metapath2vec [Dong et al., 2017]提出了meta-path guided random walk和heterogeneous Skip-Gram来处理HIN的异质性。HIN2Vec [Fu et al., 2017]通过预测HIN中不同的关系来学习HIN嵌入。RHINE [Lu等人,2019]区分了基于元路径的关系,并使用不同的模型来处理它们。HeteSpaceyWalk [He et al, 2019]提出了一种空间随机游走,以保持基于元路径的随机游走的马尔可夫链性质。然而,这些方法都存在元路径选择和融合难题。此外,有几种方法在不使用元路径的情况下进行HIN嵌入。JUST [Hussein et al., 2018]在随机游走中发展一个跳跃和保持策略。HetGNN [Zhang et al., 2019]采用图神经网络,保持了一阶和二阶接近性。HeGAN [Hu等人,2019a]在HIN嵌入中引入了对抗性学习。尽管这些方法在不使用元路径的情况下执行HIN嵌入,但它们都没有显式地保留网络模式结构。

3 我们的方法

在这里插入图片描述

NSHE同时保持成对和模式的接近性。首先,为了充分利用复杂网络结构和异构节点特征,提出通过异构节点聚合学习节点嵌入。其次,我们同时保留了成对结构和模式结构。虽然直接执行随机游走不能生成所需的模式结构,但我们提出对模式实例进行采样,并保持实例内部的相似性。此外,由于实例中不同类型的节点具有不同的上下文,设计多任务学习设计用于反过来预测目标节点和其他上下文节点,以处理模式实例中的异构性。
最后,NSHE通过优化成对聚合和保留模式损失来迭代更新节点嵌入。

3.1 保留成对邻近性

尽管在HIN嵌入中需要捕获网络模式结构,但节点之间的成对邻近性作为HIN最直接的表达方式之一仍需保留[Tang et al., 2015]。它揭示了具有链接的两个节点,无论它们的类型如何,都应该是相似的。具体来说,考虑到不同节点特征的异构性,对于类型为 φ ( v i ) φ(v_i) φ(vi),带有特征 f i f_i fi的节点v,我们用一个特定类型的映射矩阵 W φ ( v i ) W_{φ(v_i)} Wφ(vi)把异构特征映射到公共空间:
在这里插入图片描述
根据式(1),将所有不同类型的节点映射到公共空间,并表示它们的映射特征表示为 H = [ f i ′ ] H=[f'_i] H=[fi].然后我们用L层图卷积网络生成结点表示。
在这里插入图片描述
第L层的输出作为节点嵌入 Z = H ( L ) Z = H^{(L)} Z=H(L),其中Z的第i行是结点 v i v_i vi的嵌入 z v i z_{v_i} zvi.

3.2 保留网络架构邻近性网络架构实例抽样

网络模式实例采样

网络模式接近性意味着网络模式结构中具有不同类型的所有节点应该是相似的。然而,网络模式结构中的节点通常是有偏差的,即某一类型的节点数量大于其他类型的节点数量。为了减轻这种偏差,我们建议对一个网络模式实例进行如下
定义:一个网络模式实例S是一个HIN的最小子图,它包含网络模式TG=(A,R)定义的所有节点类型和边类型(如果存在)。

多任务学习保留模式

4 实验

我们将NSHE与7种最先进的网络嵌入方法进行比较,包括两种同构网络嵌入方法DeepWalk和LINE,以及五种异构网络嵌入方法,即后五种算法:

在这里插入图片描述
在这里插入图片描述

5 结论

本文首次尝试研究了在HIN 中网络模式保留嵌入的问题。通过网络模式进行网络嵌入,既保留了网络模式的语义,又不受领域知识的限制。我们提出NSHE,它可以同时学习保持成对结构和网络模式结构的嵌入。特别地,NSHE采用网络模式实例抽样方法来处理不同类型节点的偏差,并使用多任务分类器来保持hin内部的异质性。包括分类和聚类在内的实验结果证明了该算法的有效性


总结:
本文的思想也是比较简单,针对HIN元路径的选择问题,通过网络模式进行网络嵌入,保留成对邻近性和网络模式邻近性,

成对邻近性即两个节点之间有链接那么它们之间应该是相似的;网络模式邻近性即一个网络模式内所有不同类型的节点应该是相似的

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值