基于图关注网络的异构网络类型感知锚链路预测
摘要
跨异构网络的锚定链路预测在跨网络应用中起着举足轻重的作用。异构网络锚链路预测的难点在于如何综合考虑影响节点对齐的因素。近年来,基于网络嵌入的锚链预测已经成为主流。对于异构网络,以往的锚定链路预测方法首先整合与用户节点相关联的各种类型的节点,从全局角度获得融合嵌入向量,然后基于不同用户节点对应的融合向量之间的相似性来预测锚定链路。然而,融合向量忽略了局部类型信息对用户节点对齐的影响。为了应对这一挑战,我们提出了一种新的跨异构网络的类型感知锚链路预测方法(TALP),该方法从局部和全局的角度同时模拟了类型信息和融合信息对用户节点对齐的影响。TALP可以在基于两层图关注架构的统一优化框架下解决网络嵌入和类型感知对齐问题。通过在真实异构网络数据集上的大量实验,我们证明了TALP算法明显优于最先进的方法。
引言
锚链接预测(ALP)旨在识别同一自然人跨不同网络的账户,这些账户之间的链接为锚链接(账户为锚节点)。锚链在网间应用中起着举足轻重的作用,如用户简档建模(詹等,2017)和推荐(范等,2019;Lu等人,2016年)。现实中,这些网络(如社交网络、学术网络、电影推荐网络)是异构网络,包含各种类型的节点和边缘。预测异构网络间的锚定链路是目前工业界和学术界的研究热点。
随着网络嵌入的兴起,基于嵌入的锚链预测成为主流趋势。基于这一趋势,现有锚定链路预测方法的核心包括嵌入和对齐两个部分。嵌入部分的目的是基于每个网络的网络嵌入方法获得网络节点(账户)的表示向量。对齐部分通过估计不同网络中节点的嵌入表示向量之间的成对相似性来获得潜在锚链接。根据这两部分是否分开处理,现有方法可分为两类:统一框架方法(刘等,2016;尚等人(2019年)和两阶段方法(曼等人,2016年;周等2018)。上述两类方法都用于预测仅包含一种类型的节点和一种类型的边的同构网络中的锚链路。
图1:跨异构网络的锚定链路预测示例
然而,实际上,异构网络无处不在。目前,异构网络中锚定链路预测的方法很少,尤其是基于网络嵌入的方法(王等2018;冯等2019)。异构网络中锚定链路预测的思想与同构网络中的思想相同,但不同之处在于如何将各种类型的信息集成到嵌入和对齐的过程中。以前的方法是通过从全局角度融合与用户节点相关的各种类型的节点的信息来获得用户节点的嵌入向量(称为融合向量)。然后,基于融合向量的相似性预测锚定链路。研究人员已经验证了他们的方法的有效性,然而,也存在缺陷:融合向量忽略了本地类型信息(与用户节点相关联的每种类型的节点的信息)对用户节点对齐的影响。当不同异构网络中存在不一致类型的节点时,这种效应更加明显。以学术网络为例(图1)。包含三种类型的节点:作者、论文和会议。包含两种类型的节点:作者和论文。中作者的融合向量包含三种类型的信息,而中作者的融合载体只包含两种类型的信息,没有会议信息。那么,和之间的信息不一致,这可能导致在估计它们的相似性时出现偏差。此外,作者和论文的信息都包含在和,每种类型的信息对用户一致性都有自己的影响。
为了应对上述挑战,本文提出了一种基于图关注架构的异构网络类型感知锚链路预测统一框架(TALP)。TALP不仅从全局角度考虑了融合向量对用户对齐的影响,还从局部角度考虑了类型信息对齐的影响。所有的考虑因素都被公式化为一个单一的目标函数,因此最小化它可以允许在异构网络中同时实现网络嵌入和用户节点对齐。
具体来说,TALP由两部分组成:n元组表示和类型感知对齐。对于n元组表示,我们在每个异构网络上进行网络嵌入,以获得每个用户节点的n元组嵌入向量。考虑到融合向量会丢失类型信息,我们使用了一种两层图注意力结构来同时学习融合向量和类型感知向量。GAT的第一层旨在整合属于同一类型的嵌入向量,并在此类型信息上获得用户节点的局部表示,称为类型感知嵌入向量。GAT的第二层旨在融合用户节点的不同类型感知向量,得到全局嵌入向量,称为类型融合嵌入向量。对于类型感知对齐,我们认为类型信息和融合信息共同影响用户节点对齐。换句话说,我们协作测量融合嵌入向量的双向相似性和类型感知嵌入向量的成对相似性,这可以指导n元组嵌入过程。
简而言之,本文的贡献可以概括如下:
- 在本文中,我们提出了一个跨异构网络的类型感知锚链路预测框架。该框架不仅基于用户节点的类型融合向量之间的成对相似性来预测锚定链接,而且还根据类型来考虑与用户节点相关联的类型感知向量之间的成对相似性。
- 针对异构网络间的锚链路预测,提出了一种基于图关注的统一框架,该框架可以在预测锚链路的同时学习每个用户节点的n元组嵌入向量。
- 我们在两对实字异构网络上评估了提议的框架(TALP)。结果表明,我们的方法始终优于现有技术的方法,这些方法只考虑融合向量之间的成对相似性来预测锚定链接。
问题表述
在本节中,我们首先介绍异构网络中的概念,然后介绍节点的嵌入表示(类型感知嵌入和类型融合嵌入)。最后,给出了类型感知锚链路预测问题的形式化定义。
定义1。异构网络 异构网络被定义为具有多种类型的节点和/或多种类型的链路的网络。可以表示为G = {V,A,R},其中V是一组节点,A是一组链路,R表示节点类型并集。
以图1中的异构网络为例,
接下来,我们将以为例,分别介绍类型感知嵌入和类型融合嵌入。
问题1。类型感知嵌入:给定中一个用户节点(一个作者节点),表示的第r种 (r ∈)类型邻域集合。对每个节点,其嵌入向量表示为,积分每个嵌入向量中节点的获取的第r类型信息的类型感知嵌入向量,表示为。
问题2。类型融合嵌入:给定中一个用户节点,类型融合嵌入问题是集成每个类型感知嵌入向量与关联,表示为。
问题3。类型感知锚链路预测:给定两个异构网络:和,是锚链路当且仅当∈和识别同一自然人。这里,和的表示是n元组,包含类型融合嵌入向量和类型感知嵌入向量,表示为和,,。类型感知锚链路预测旨在通过匹配和上每对用户节点之间的n元组表示向量来预测未观察到的锚链路。
提议的模型
在本文中,我们提出了一个统一的框架TALP来对齐异构网络中的锚定用户节点,该框架利用图的注意力来帮助学习与每个用户节点相关联的类型感知向量和类型融合向量,并获得每个用户节点的n元组表示。在此基础上,我们可以通过协同测量n元组表示中每个元素向量的成对相似性来预测两个用户节点之间是否存在锚定链接。
n元组表示
在本节中,我们使用两个GAT(图形注意网络)分别学习和中每个用户节点的n元组表示。GAT中两个遗传算法中的参数是共享的,以为例,介绍了每个用户节点n元组表示的获取过程。
类型感知嵌入 我们使用的遗传算法包含两个注意层:第一层旨在学习类型感知嵌入,第二层旨在学习类型融合嵌入(图2)。
对于中的用户节点,首先将及其相邻节点的特征向量初始化为相同的维数D。根据节点包含的信息提取初始特征向量。具体来说,Word2vec用于包含文本信息的节点,文本信息不清晰的节点采用随机分配的方法获得其初始特征向量。和的初始特征向量分别表示为和。为了学习的r型嵌入向量,我们将所有,I和一起输入第一个注意层。
特别地,对于每个节点对及其任意邻居,我们首先使用加权矩阵参数化的线性变换,将初始特征转化为更高层次的特征,然后根据式(1)计算对的重要性得分(Vaswani et al.2017):
其中,表示转置,||是级联运算,是一个权重向量,D'是每种类型感知向量的维数。
然后计算节点对与其邻居之间的注意系数。我们通过执行掩蔽注意,将的邻接矩阵注入注意机制(Velickovic et al.2017),归一化注意系数表示为:
的第r类型感知嵌入向量计算为:
其中σ是Elu活化函数。
为了稳定自我注意的学习过程,我们采用多头注意来计算类型感知嵌入向量,K是注意机制的个数。因此,我们将式(3)表示为一种具有多头注意机制的形式:
式中,是第k个注意机制计算的归一化注意系数,是第k个注意机制的加权矩阵。在训练中,K注意机制是独立和平行的。
类型融合嵌入 获得的类型融合嵌入向量,将所有类型的嵌入向量()和初始特征输入到GAT的第二注意层,然后将这些向量聚集为关注系数。
特别是对于每一个向量对和,由于它们的维数不同(D和D''分别),我们采用加性注意(BahanDau,Cho,Bangi- 2015)来计算和之间的注意系数。首先,对类型融合向量的重要性得分计算如下:
其中是一个权重向量,和是权值矩阵,D''是型融合向量的维数。
注意力系数可计算为:
的类型融合嵌入向量表示为,可根据下式计算:
到目前为止,我们可以得到的n元组表示,。与之类似,可以得到中每个用户节点的n元组表示。需要注意的是,在和中,权重矩阵、和以及权重向量、是共享的,这确保了两个网络中用户节点的嵌入向量元组在相同的嵌入空间中。
类型识别对齐
给定两个异构网络和,∈和∈,如果和之间存在锚定连接,则对应于它们的嵌入向量元组和应该尽可能接近。同样重要的是,如果∈和∈不是同一个自然人,则它们的n元组嵌入表示之间的距离应该尽可能远。换句话说,对齐的用户节点之间的距离应该最小化,而未对齐的用户节点之间的距离应该最大化。在实际应用中,如果两个异构网络中的节点类型不一致,对于缺少某种类型节点的异构网络,在元组对齐时,将该网络中用户节点的n元组中对应的类型感知嵌入向量补为。也就是说,对齐时元组长度必须相同,如图3所示。我们使用来表示类型感知对齐上元组的长度,其中=∪。因此,目标函数是:
其中,B是已知锚链的集合,表示锚链,而不是锚链。分别是和的融合嵌入向量。是它们的r类型信息的类型感知嵌入向量。d(,)是一个距离公式,本文中=。ξ是分隔锚链和未锚链的边距超参数。ω和是平衡锚链预测中类型融合相似度和类型感知相似度重要性的超参数,这里。
我们在算法中总结了我们的算法。我们在源网络和目标网络上的n元组表示的时间复杂度分别是和,它们与边和节点的总数成线性关系。源网络和目标网络的嵌入向量计算是并行的,时间复杂度取决于节点数和边数较多的网络。此外,由于类型感知的时间复杂度是由计算相似度引起的,可以忽略不计。因此,TALP算法的时间复杂度主要取决于源网络或目标网络中节点数和边数之和。
实验
实验装置
数据集和评估指标 我们在两对真实的异构网络:AminerMag和Twitter Foursquare上进行了实验。《阿米纳·马格》(Tang等人,2008)是一对引文网络。在胺网络中,有会议节点、论文节点和作者节点三种类型,而在Mag中,论文和作者分别对节点类型进行了研究。twitterFoursquare(张某、俞2015)是一对社交网络,其中节点类型有用户、推特和位置。表2说明了这些数据集的统计信息。我们使用精度@k(P@k公司)平均平均精度(MAP)(Zhou等人,2018)评价ALP性能。
基线和设置
我们将我们提出的模型TALP与以下最新锚链预测方法进行了比较:
- MAG(Tan et al.2014)MAG使用图上的流形对齐来映射同质网络的用户。MAG中使用的数据集Twitter-Foursquare与本文中的数据集Twitter-Foursquare相同,但是MAG的源代码并不公开,因此本文直接复制了MAG中的实验结果,与本文的方法进行比较。
- IONE(Liu et al.2016)IONE通过同时学习用户的follower-ship嵌入和followee-ship嵌入来预测锚链,它也被提出用于同质网络。在本文中,对于每个异构网络,我们只保留用户节点和它们之间的链接,并将有向子网输入到IONE中。
- DeepLink(Zhou等人,2018)作为同质网络的ALP方法,DeepLink采用无偏随机游走生成嵌入,然后使用MLP映射用户。与MAG类似,我们直接复制DeepLink中报道的实验结果与我们的方法进行比较,因为源代码不是公开的,而且我们的论文和DeepLink之间共享了Twitter-Foursquare数据集。
- HAN(Wang et al.2019)HAN是一种基于GAT的异构网络嵌入模型。本文利用该方法为异构网络中的每个用户节点获取一个嵌入向量,然后通过估计嵌入向量之间的成对相似度来映射用户节点。
- PME(Chen et al.2018)PME也是一种异构网络嵌入方法,它将各种类型的链路投影到不同的子空间,最终得到每个节点的整体嵌入向量。在本文中,我们使用PME来获得嵌入向量,然后映射它们。
- HHNE(Wang,Zhang,Shi 2019)HHNE使用朴素主动学习获得异构网络中每个节点的嵌入向量。在本文中,我们使用HHNE来获得嵌入向量,然后将它们对齐。
- 和是TALP的变体。只使用类型融合嵌入向量来对齐异构网络中的用户节点。只使用各种类型的类型感知嵌入向量来对齐用户节点。以它们为基线,分别分析了类型融合向量和类型感知嵌入向量在锚链预测中的重要性。
性能比较
在实验中,两种比较方法和我们的方法TALP的所有超参数都被调整到测试集上表现最好。对于我们的模型,D=300,D'=D''=128,ξ=3,ω=0.4和K=3,对于所有的基线方法,我们设置的参数与原始工作相同。
表3给出了锚链预测的结果。从这个表中,我们可以观察到我们的模型TALP在两对数据集上始终优于所有基线。更特别的是:
- 对于异构网络,TALP明显优于以前的锚链预测方法(HAN、PME、HHNE)。其原因在于以往的方法仅基于融合向量的两两相似性来对齐锚定用户节点。通过比较,TALP利用类型感知嵌入向量和类型融合嵌入向量来同时对齐锚定用户节点。这正好说明了类型信息匹配对锚链的影响。另外,与HAN、PME、HHNE等算法一样,算法也只使用融合向量对用户进行对齐,但其性能优于其他算法。这是因为我们的图注意体系结构能够更好地建模用户节点的融合向量。同时,HAN、PME和HHNE算法的性能优于同构网络ALP算法(MAG、IONE、DeepLink),表明异构网络中用户节点的嵌入向量比同构网络包含更丰富的信息。
- TALP的表现比和好。对于TALP和,它们之间唯一的区别在于是否引入了类型感知向量的匹配。显然,引入类型感知向量的匹配可以提高锚定用户节点对齐的性能。对于TALP和,两者的区别在于是否引入了融合向量的匹配。从表2可以清楚地看出,TALP优于,说明类型融合信息对ALP也有好处。
- 优于。相比之下,的性能优于,这表明类型感知信息比类型融合信息更有效地预测异构网络中的锚链。
- Aminer Mag的性能改善明显高于Twitter Foursquare。这两对数据集的区别在于Aminer和Mag的数据类型不一致。这证明了我们的模型TALP能够更好地预测数据类型不一致的异构网络中的锚定链接。
讨论
在本节中,我们将评估参数的不同选择如何影响模型的性能。在接下来的实验中,除了被测参数外,其余参数都被设定为最优配置。
不同ω和下的性能 在我们的模型中,ω是对ALP类型融合相似度重要性的加权,是对ALP类型感知相似度重要性的加权。当时,我们只评估了ω的变化对TALP对准性能的影响。从图4中我们发现:(1)TALP在(1-ω=0)设置下的性能最差,这表明仅使用类型融合相似度(ω=1)不足以进行锚链预测,需要引入类型ware信息;(2)随着(1-ω)的增长,TALP的性能先升后降,这表明类型感知信息确实可以更准确地预测锚链。然而,随着(1-ω)的进一步增大,系统的性能逐渐下降,这表明在类型感知信息和类型融合信息之间保持平衡是非常重要的。
不同K上的性能 对于类型感知向量的学习,我们采用了多头注意机制。锚头K的个数也会影响锚链的预测性能。从图5可以看出,当K=3时,两对数据集上的TALP、和的性能最好,表明K=3最能表达用户节点的类型感知信息,并在异构网络中传递用户节点的对齐特征。所有数据集上的性能开始逐渐上升到最高点,然后随着头K数的增加而下降。这主要是因为太小的K值不能捕捉到更丰富的类型感知信息,而太大的K值可能引入噪声。
从图6(a)和图7(a)可以看出,在不同的训练比下,TALP在两对数据集上的表现优于所有基线。即使是低至10%至20%的比率,它们的表现仍然优于基线。另外,TALP、和在训练比提高到70%时效果最好,而其他基线在训练比在90%左右时表现较好,说明了模型的鲁棒性。
不同嵌入维数下的性能 对于不同的嵌入维数,根据图6(b)和图7(b),我们观察到除MAG外,低维数对于所有方法都是足够的。众所周知,学习算法的复杂性高度依赖于空间维数。在本文中,我们选择128作为最佳尺寸。
不同训练迭代的表现 图6(c)和图7(c)显示了我们的模型和基线方法的性能如何随着不同的训练迭代而变化。我们观察到,随着迭代次数的增加,所有方法的性能都会得到更好的结果。训练迭代次数反映了算法的收敛速度。TALP比所有基线更快地收敛到最佳结果。
案例研究
为了更好地理解和深入了解节点类型信息差异对对齐过程的影响,我们随机抽取了两对真实的锚用户,并在图8中展示了他们的邻居。黄色和白色行分别代表Aminer和Mag数据集。我们特别注意到:
- 类型感知对齐可以预测类型融合方法无法预测锚用户。对于论文类型的邻居,用户“I**r Ivanov”在两个数据集中有相同的论文和不同的论文。不同论文的作用将被放大。例如,“I**r Ivanov”链接了一篇论文“5-水杨酸硒化***”在胺剂中,但链接了另一篇论文“原子***的实验电离”。这种差异导致两个数据集中用户类型融合向量的相似性仅为0.49,这很难确定是否存在锚链。通过比较,考虑到类型信息的差异,采用类型感知方法,相似度为0.61,便于确定锚链。这再次验证了为什么我们的方法可以提高对准精度。
- 对于两种方法都能预测的锚链,类型感知对准比类型融合算法具有更高的相似性。虽然用户“E**er Zartzer”在两个数据集中具有相同的论文信息,但作者的信息却不同。具体来说,作者“A**sM。“胺剂中的银农”与Mag中的不同(“A**s.M.YNON”)。此外,Mag中的会议信息为空,与胺的会议信息不同。类型融合方法忽略了基于类型感知方法的类型信息差异,锚用户之间的相似度较低。
相关工作
异构网络嵌入
异构网络嵌入是指异构网络中节点/边的学习表示。近年来,许多研究者在这方面做了大量的工作。PME(Chen等人2018)和(Sun、Zhao和Liu 2015)将各种关系投射到不同的嵌入子空间中,然后通过平移或坐标矩阵将它们映射到同一嵌入空间中。HAN(Wang等人2019)提供了一种基于元路径的GAT模型,通过节点级和语义级注意机制学习嵌入向量。EGNN(龚和程2018)通过GCN将节点和边联合编码为统一的低维空间。GaAN(Zhang等人2018)将注意机制应用于门控神经网络中,解决了节点分类问题。与传统的多头注意机制相同,GaAN采用卷积子网络来控制每个注意头的重要性。EOE(Xu等人2017)学习了两个网络的嵌入表示,并结合了一个和谐的嵌入矩阵,将不同网络的表示转换为同一空间。
锚链预测
传统的ALP方法主要基于精心设计的手工特征计算成对相似性,例如MNA(Kong,Zhang,yu2013)从社会结构和文本内容信息中提取特征。(Koutra、Tong和Lubensky 2013)从各种节点属性中提取特征,例如用户名、键入模式和语言模式等。虽然性能优异,但耗时、耗费劳力,且通常会受到不灵活的扩展。
与上述手工构建特征的方法不同,基于嵌入的方法可以自动学习节点的特征,包括嵌入和对齐两部分。根据这两部分是否分开处理,现有的方法可分为两类:第一类是将这两部分作为两个独立的步骤来预测锚链,如PALE(Man et al.2016)首先通过捕捉每个节点的主要结构规律来学习网络嵌入,然后再学习跨两个低维空间的映射函数。DeepLink(Zhou et al.2018)对网络进行采样,并学习将网络节点编码为向量表示,以捕获局部和全局网络结构,进而通过深度神经网络对齐锚节点。第二类是在统一的框架下同时解决嵌入和对齐过程。例如,IONE(Liu et al.2016)将网络中的追随者/跟随者和网络中的锚定用户都纳入了一个单一的目标函数中。PAAE(Shang等人,2019)通过对抗性正则化装置自动编码器捕获一个网络中的主要结构正则性,然后将嵌入和对齐问题表述为单个目标函数。
此外,已有一些跨异构网络的锚链预测研究。LHNE(Wang et al.2018)通过分别在网内和网间联合捕获基于朋友和基于兴趣的用户共现,将跨网络的结构和内容信息嵌入到统一的空间中。然后根据这些嵌入向量对齐用户。DPLink(Feng等人,2019)提出了一种端到端的深度神经网络,它解决了基于从不同性质的服务收集的异构移动数据的锚定链路预测问题。
结论
本文提出了一种跨异构网络的类型感知锚链预测框架,该框架考虑了本地类型信息对用户节点对齐的影响。该框架不仅基于用户节点类型融合向量之间的成对相似性,而且还考虑了与用户节点相关的不同类型节点的类型感知向量之间的成对相似性。对于每个用户节点,TALP可以学习基于两层图注意结构的n元组表示。锚是用来监督目标函数,目的是使锚之间的距离最小化。在此基础上,通过测量两个用户节点的n元祖表示中每个元素向量的成对相似度,可以预测两个用户节点之间是否存在锚定链接。在实际异构网络数据集上的实验验证了TALP的有效性和有效性。在未来,我们计划将我们的模型扩展到跨多个(两个以上)异构网络的锚定链接预测。