【论文翻译 | AAAI19】HHNE - Hyperbolic Heterogeneous Information Network Embedding 双曲异构信息网络嵌入

在这里插入图片描述


双曲空间 异构网络嵌入
参考阅读: HHNE

摘要

异构信息网络(HIN)嵌入是一种将HIN映射到低维空间的技术,引起了广泛的研究。现有的HIN嵌入方法大都关注于在欧氏空间中保持固有的网络结构和语义关联。然而,一个基本问题是,欧几里得空间是HIN的合适空间还是内在等距空间?最近的研究认为,复杂网络可能具有双曲几何结构,因为双曲几何可以自然地反映复杂网络的一些性质,如层次结构和幂律结构。本文首先对双曲空间中的HIN嵌入进行了研究。我们分析了两个真实世界的HIN的结构,发现HIN也存在幂律分布等性质。为此,提出了一种新的双曲异构信息网络嵌入模型。具体来说,为了捕获节点之间的结构和语义关系,我们采用元路径引导的随机游走对每个节点的序列进行采样然后利用双曲空间中的距离作为近似度量。双曲距离能够满足三角形不等式,并很好地保持HIN的传递性。我们的模型使节点及其邻域具有较小的双曲距离。在此基础上,进一步推导出了有效的双曲嵌入迭代更新优化策略。实验结果表明,本文提出的模型不仅在网络重构和链路预测任务方面具有较好的性能,而且通过可视化显示了其在HIN中捕获层次结构的能力。

1 引言

异构信息网络(HINs)是由多种类型的节点和边组成的网络。在HINs中对真实世界中的数据建模可以捕获丰富的数据语义。例如,书目网络可以建模为一个HIN,有三种节点:作者、论文和地点(Fu, Lee, and Lei 2017)。此外,节点之间的关系,如作者-论文(写),论文地点(发表),有不同类型的边。近年来,HIN embedding以在保持结构和语义信息的同时学习低维空间中的节点表示为目标,得到了越来越多的研究。受益于HIN嵌入,各种基于HIN的应用,如推荐(Shi et al. 2018;Hu et al. 2018)和链接预测(Chen et al. 2018),都可以在低维空间进行和改进。
到目前为止,已经提出了许多HIN嵌入方法。松散地说,有基于随机游走的工作(Dong, Chawla, and Swami 2017;Fu, Lee, and Lei 2017),基于网络划分的方法(Tang, Qu, and Mei 2015;Xu et al. 2017),以及基于深度神经网络的HIN embedding (Chang et al. 2015;Wang et al. 2018)。从本质上讲,由于结构和语义是HIN中最重要的两个信息,它们大多关注于如何在低维空间中有效地保存HIN结构和语义。然而,另一个基本问题是,什么是HIN合适的或内在的潜在等距空间?由于欧几里得空间是我们直观友好、视觉直观的三维空间的自然泛化,因此它们成为了当前HIN嵌入方法的首选。而越来越多的研究表明,许多类型的复杂数据,如社交网络,实际上具有高度的非欧几里德潜解剖(Bronstein et al. 2017)这促使我们重新思考,当前选择的用于HIN嵌入的低维空间,即欧几里得空间是否最优,是否存在其他可行的非欧几里得空间?

最近,双曲空间在网络科学的背景下获得了势头。双曲空间常负曲率的空间(Cannon et al. 1997)。双曲空间的一个优势是它们比欧氏空间扩展得更快(Nickel和Kiela 2017)。例如,考虑一个圆和一个磁盘在常曲率的二维双曲空间K =−1,圆的长度和磁盘双曲半径r的面积给出2πsinhr和2π(coshr−1),分别和他们成长为erwith r。在一个二维欧几里得空间,给出半径为r的圆的长度和圆盘的面积分别为2πr和πr2,相对于r只作线性二次增长。因此,在双曲空间中,很容易对复杂数据进行低维嵌入建模。由于双曲空间的特性,(Krioukov et al. 2010)假设复杂网络下存在双曲空间,发现幂律结构的数据适合在双曲空间中建模。由于双曲空间的这些性质,一些著作开始研究不同数据的双曲嵌入。例如,(Dhingra et al. 2018)将文本嵌入到双曲空间中。(Nickel and Kiela 2017)和(Ganea, Becigneul, and Hofmann 2018)学习了同质网络的嵌入

本文提出了一种新的双曲异构信息网络嵌入模型(HHNE),该模型保留了双曲空间中的结构和语义信息。我们利用元路径引导的随机游走为每个节点生成异构邻域,以捕获HIN中的结构和语义关系。然后用双曲空间中的距离来度量节点之间的距离。由于距离是在度量空间中定义的,节点之间的接近性满足三角形不等式,可以很好地保持HIN中的传递性。我们的模型能够最大化邻域节点之间的邻近性,同时最小化负采样节点之间的邻近性。进一步推导出双曲线嵌入迭代优化的有效优化策略。


主要贡献:

  • 据我们所知,我们是第一个研究双曲空间HIN嵌入问题的人。
  • 提出了一种新的HIN嵌入模型HHNE,该模型基于元路径引导的随机游动来保持双曲空间中的HIN结构和语义关联。
  • 我们进行了大量的实验,以评估HHNE在两个真实数据集上的表现能力和泛化能力。结果表明,HHNE与现有的先进技术相比具有优越性。

2 相关工作

网络嵌入
最近,在网络嵌入方面取得了重大进展(Cui et al. 2018)。例如,DeepWalk (Perozzi, Al-Rfou, and Skiena 2014)受到语言建模技术的启发,将随机游动生成的节点序列视为“句子”,将节点视为“单词”,然后最大化节点之间的共现概率。LINE (Tang et al. 2015)能够有效地学习不去嵌入,同时保留一阶和二阶结构。Node2vec (Grover and Leskovec 2016)来源于DeepWalk。它设计了一个参数化随机游走过程来学习节点的映射,最大限度地保留节点的网络邻域。SDNE (Wang, Cui, and Zhu 2016)使用自动编码器捕获局部和全局网络结构,以学习用户表示。大多数网络嵌入方法将网络嵌入到低维欧氏空间中,也有一些研究者开始将网络嵌入到低维双曲空间中。(Nickel and Kiela 2017)将网络嵌入到双曲空间中,学习网络的层次特征表示。(Ganea, Becigneul, and Hofmann 2018)将有向无环图嵌入到双曲空间中,以学习它们的层次特征表示。然而,这些方法只关注于学习同质网络中节点的表示,没有考虑复杂信息网络的异构性。
异构信息网络嵌入
近年来,人们提出了一些针对HIN的表示学习方法。Metapath2vec (Dong, Chawla, and Swami 2017)将基于随机行走的元路径形式化,获得节点的异构邻域,并利用Skip-gram模型学习网络结构。HIN2vec (Fu, Lee, and Lei 2017)联合进行多个预测任务,学习节点和元路径的表示。PTE (Tang, Qu, and Mei 2015)将HIN划分为一组边向二部网络,然后使用LINE联合学习特征表示。EOE (Xu et al. 2017)的目标是嵌入耦合的HIN, HIN由两个不同但相关的同质网络组成。它使用与LINE相同的函数对每个同质网络进行建模。HNE (Chang et al. 2015)将HIN中的不同对象转换为统一的特征表示,并共同考虑网络中的内容和拓扑结构来创建嵌入。SHINE (Wang et al. 2018)利用多个深度自编码器提取用户的高度非线性表示,同时保留原始网络的结构
综上所述,所有HIN嵌入模型都将HIN投影到低维欧氏空间。然而,欧几里得空间是否最合适仍然是一个悬而未决的问题。

3 相关知识

3.1 HIN相关定义

3.2 HIN中的关系分布

如前所述,幂律结构的数据可以自然地在双曲空间中建模。因此,我们使用两个真实的HINs来检验节点的幂律分布是否也存在于不同的元路径中。我们计算节点的分布如下:给定一个元路径P和一个节点v,我们首先计算从P后面的v开始可以组合多少个元路径实例,然后计算有多少个节点有相同的结果。这两个结果分别绘制为水平轴和垂直轴。对于DBLP数据集,我们分别在图3(a)和图3(b)中显示了作者-论文-作者(a -p -a)关系和作者-论文-地点(a -p -v)关系的分布。对于MovieLens数据集,我们在图3©中显示了actor-movie-director (A-M-D)关系的分布。我们可以看到这些分布是幂律分布。这一事实意味着双曲空间可能是嵌入HINs的替代空间。请注意,在一个HIN中存在大量的元路径,具有某些特定元路径的节点可能并不总是具有幂律分布,这是有道理的,但从下面的实验中可以看出,结果仍然非常具有竞争性。对元路径的更细粒度的分析将留给未来的工作。
在这里插入图片描述

4 双曲空间中的HIN嵌入

4.1 双曲几何

双曲几何是一种非欧几里得几何,它是由替换欧几里得第五几何公设(平行公设)而得到的。双曲几何研究常负曲率的空间。双曲空间H的一个关键性质是它们比欧几里德空间扩张得快,因为欧几里德空间R是多项式扩张,而双曲空间H是指数扩张。具体来说,图4(a) (Tay, Tuan, and Hui 2018)中的每个tile在双曲空间中面积相等,但在欧几里得空间中,在边界处面积趋近于零。由于这个性质,双曲空间可以被认为是树的连续版本。具体来说,如图4(b)所示(Nickel和Kiela 2017),考虑一棵具有分支因子b的树,从根到l级或不超过l跳的节点数分别为(b + 1)bl−1和[(b + 1)bl−2]/(b−1)。节点的数量随着它们到树根的距离呈指数增长,这类似于双曲空间,它们呈指数增长。在双曲空间中,树状结构的数据可以很自然地嵌入到二维双曲空间中。给定一个节点在l级,节点可以放置在一个球体在双曲空间距离l dH∝球体的起源,和分支系数b可以常曲率双曲空间建模为K =−ln2 b。正如上面提到的,树的节点数量呈指数级增长到根与他们的距离,树的节点分布遵循幂律分布。因此,幂律分布可以自然地作为网络下的双曲几何的基本性质的直接结果出现。具有幂律分布的数据适合于在双曲空间中建模(Krioukov et al. 2010)。

6 结论

本文研究了双曲空间中HIN的嵌入问题。我们提出了HHNE方法,该方法的目标是在考虑给定节点的多种类型的邻域时最大限度地接近。我们利用双曲空间中的距离作为接近测度,满足三角形不等式,并能很好地保持HIN的传递性。采用随机黎曼优化方法对双曲嵌入算法进行更新。大量的实验表明,HHNE的嵌入性能优于现有的网络嵌入方法,特别是嵌入空间维数小,证明了HHNE能够发现HIN中的潜在层次结构。


总结
本文的研究仍然是基于元路径的,且要求定义的元路径在HIN中是呈幂律分布的。少量的不满足幂律分布的元路径的存在,并不会对结果产生较大影响

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值