【论文笔记】异构信息网络的链路预测:一种改进的深度图卷积方法

Link prediction in heterogeneous information networks: An improved deep graph convolution approach

Wang X, Chai Y, Li H, et al. Link prediction in heterogeneous information networks: An improved deep graph convolution approach[J]. Decision Support Systems, 2021, 141: 113448.

HINs:异构信息网络
本研究目的:
1)开发一种可以应用于不同类型的信息系统的链接预测方法。换句话说,开发一种可以处理多种类型的 HIN 的方法,而不管使用上下文如何。
2)通过整合结构信息和对象的不同类型的固有特征,包括文本,分类和数字特征,减少所提出的链接预测方法的信息损失,以提高其性能。
GCN能够解决传统图嵌入方法图信息损失的问题。
D是度矩阵,A是邻接矩阵,上面带波浪线则是进行了自连接的,就是自己也算是一个邻居。
相比于谱的卷积网络,空间的卷积网络不利用邻接矩阵A,只sample子图,因而更能处理复杂的图。

模型
stage-1:本地邻居发现

目前已有的常用的采样方法,是将图划分为拓扑结构相似的子社群:
传统本地邻居采样方法
w是i点和j点间关系的权重,k是和该点直接连接的所有关系权重和,c是目前该点所属的子社群(subcommunity);δ是狄拉克函数,ij两个点如果目前属于同一子社群,则函数值为1,否则为0;m是所有关系的权重和。但是该方法在进行大规模合并时容易生成较大的community,从而丢失信息。
本文提出的改进方法:
在这里插入图片描述
其中C是所有子社群的集合,|c|是c这个子社群的size, m a x ( c ) max(c) max(c)是规模最大的子社群。第二个部分是为了防止子社群过大,第三个部分是为了防止ci和cj这两个候选的子社群过度重叠,否则节点的预测性就会下降。

stage-2:本地子图的张量化

张量:向量是一维张量,矩阵是二维张量。可以更好的表达网络。
在得到一个有所有子网络的本地子图来表示一个节点后,将该节点处理为l✕|E|✕max(c)维的张量,|E|是V的内在嵌入(inherent embeddings),所有size小于max(c)的子社群张量由全0虚拟邻居填充。为了在每个子网络上将子社群转换为|E|✕max(c)维的矩阵,需要强制进行点的排序。本文排序采用的是收敛全局随机游走:
给定在子网络j的节点i的子图,随机游走可以表示为:
在这里插入图片描述
其中α为重启概率,ps是第s步的visiting概率,A是该子图的归一化邻接矩阵。求解平稳概率为:
在这里插入图片描述
每个节点的p*可以表示该节点的全局重要性,以此作为排序依据。

stage-3&4:embedding learning和链路预测

本文中卷积神经网络CNN用于学习张量的特征。通过使用kernel的方法将原始特征节点映射到高维向量空间,在CNN的kernel layer输出以下的kernel相似度:
在这里插入图片描述
其中wr表示根据每个内核值的贡献调整的可优化权重,ei[r]是在第r层输出的i点的张量。这样,就可以输入两个点的张量,得到这两个点的相似度。
之后,将所有成对点的kernel相似性向量输入到多个非线性全连接神经网络 (FCNN) 层以预测目标链接的可能性。每个全连接层l的嵌入为:
在这里插入图片描述
(relu负值为0,正值为值本身)
损失函数则使用softmax交叉熵:
在这里插入图片描述

实验

用了四个数据集,其中douban是两种类型的点,五种类型的边,预测一种类型的链路。
使用F-1分数评估链路预测准确性,使用每1000个链路的平均预测时间(s)来表示效率。

结论
pros:
  • 首先,所提出的方法不依赖于主观的总结,即它是无上下文的。与大多数基于邻域的方法不同,这些方法计算分数/指标作为基于启发式方法的顶点之间相似性的度量(例如,假设两个用户在共享相同的朋友时倾向于链接),所提出的方法在所有四个数据集中形成良好的形式。换句话说,无论链接或顶点的类型如何,所提出的方法都适用于链接预测问题。
  • 其次,所提出方法的输入是整个图,而不是基于邻域和路径的方法所采用的局部结构。节点嵌入可以通过同时考虑图的局部和全局结构信息,使用图嵌入技术直接从原始数据中学习。与传统的机器学习技术相比,所提出的学习策略依赖于人为构造的特征,可以避免成对顶点内在相似性的信息丢失,并自动学习有用的特征。
  • 第三,我们提出的GCN将网络结构信息与顶点的固有特征相结合。相比之下,其他图嵌入方法仅考虑网络的结构信息。
  • 最后, 所提出的方法是一种持续学习方法.虽然像DeepWalk这样的无监督学习算法可以有效地学习未加权图的顶点表示,但它们并不擅长捕捉原始高维空间和递归低维空间之间的非线性关系。在监督学习中,可以使用可用的地面实况数据来调整模型的参数。

从方法学的角度来看,所提出方法的以下四个设计方面有助于其实现与基准相比更好的性能。

  • 首先,引入一种新的群落发现方法,选择性地识别结构相关的邻域顶点,确保同时捕获群落间相似性和群落间差异。
  • 此外,我们基于张量的GCN同时考虑顶点的结构信息和固有特征,以解决大多数图嵌入技术和链接预测方法中经常发生的信息丢失问题。
  • 第三,使用新的内核启发层来有效地测量顶点相似性。
  • 最后,与仅在特定上下文中能够预测链接的现有方法相比,由于使用了从各种网络实体中提取的颜色,价格,性别和年龄等固有特征,因此所提出的方法具有通用性。
cons

这项研究的局限性为未来研究的方向提供了信息。首先,我们计划考虑 HINs 中链接的时间和方向属性,因为某些关系是非静态的、倒数的,并且可能只存在一段时间。其次,我们对以文本内容作为这项工作固有特征的HN进行了实验;可以设计相关的多源信息集成技术,以对嵌入在 HIN 中的其他数据结构(如图像、音频和视频)进行嵌入式评级。第三,在社区检测阶段整合不同子网的权重可能会导致潜在的信息丢失,这在今后的研究中应该会有所改进。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值