链接预测学习总结

链接预测(Link Prediction)是知识图谱嵌入(Knowledge Graph Embedding)的应用之一,将知识图谱中实体和关系的内容映射到连续向量空间中,对知识图谱中的实体或关系进行预测,即(h,r,?),(?,r,t),(h,?,t)三种知识图谱的补全任务。本篇文章主要介绍基于图结构的链接预测,比较流行的方法有基于相似度的、概率统计、预处理、SVM或KNN等算法。链接预测还包括基于表示学习的推理、基于神经网络的推理、基于规则的推理以及混合推理。

链接预测可以应用在多个领域。目前应用比较广泛的是:1)在社交网络中向用户推荐熟人和相似的用户,大多数社交网络都使用链接预测技术来推荐熟人。2)在生物领域,链接预测用来发现可以发生相互作用的蛋白质。由于目前有很多蛋白质人们都不熟悉,实验的时间和金钱成本高,所以需要较准确的预测,减少成本。3)用于在已知部分节点类型的网络中预测未标签节点的类型,如用于判断一篇学术论文的类型或从犯罪网络中预测某些犯罪行为。

首先对基本概念进行简单的说明。图或者网络G的有序对G=<V,E>。V是图中的节点,E是边,节点x与节点y的链接表达为e_{x,y}。|V|表示节点的数量,|E|表示边的数量。\Gamma_x表示与x相邻的节点,|\Gamma_x|表示与x相邻节点的个数,\left \langle \Gamma_ \right \rangle表示网络中节点的平均度数。

基于相似性的方法是预测网络中相似的节点。该方法主要是用得分函数对节点打分并排序,故序列中得分最高的就是最终预测的链接。目前主要有以下三种方法:

1.局部法。目前已经发表的局部法至少有十几种,本文中仅列举以下四种。

(1)Common Neighbors(CN)是根据两个节点共同的邻居节点的数量来判断相似性的。公式为:s(x,y)=|\Gamma_x \bigcap \Gamma_y|

(2)The Adamic-Adar Index(AA)对x和y的共同邻居节点的度数做了对数惩罚。可以这么理解:如果x与y有一个共同爱好,如果很多人都有这个爱好,那么x与y相似度就不大。如果只有x与y有这个爱好,那么x与y的相似度就大。公式如下:s(x,y)=\sum_{z \in \Gamma_x \bigcap \Gamma_y } \frac{1}{log|\Gamma_z |}

(3)The Resource Allocation Index(RA)与上述方法很相似,只是去除了对数惩罚,但是在很多网络中效果更好。公式如下:

s(x,y)=\sum_{z \in \Gamma_x \bigcap \Gamma_y } \frac{1}{|\Gamma_z |}

(4)Resource Allocation Based on Common Neighbor Interactions (RA-CNI)是在上个方法上稍加改进。公式如下:

\large s(x,y)=\sum_{z \in \Gamma_x \bigcap \Gamma_y } \frac{1}{|\Gamma_z |} + \sum_{e_{i,j} \in E , |\Gamma_i| < |\Gamma_j|,i \in \Gamma_x, j \in \Gamma_y} \frac{1}{|\Gamma_i | - |\Gamma_j |}

通过上面四种算法,可以发现对算法改进可以只是对公式的简单修改,但性能上却又不少提升。

2.全局法。

(1)Katz指数算法,是1953年Katz提出的。公式为:S=(I-\beta A)^{-1}-I,已在这篇文章中详细推导了,此处不再解释。全局法相较于其他两种方法,效果较差。

(2)Random Walks(RW)随机游走算法。公式为:\large \vec{p^{x}(t)}=M^{T}\vec{p^{x}(t-1)}。其中\large \vec{p^{x}(t)}表示由节点x出发,迭代t次到达其它节点的概率向量。\large M^{T}是对网络的邻接矩阵的每一行进行归一化。参考文献2对随机游走算法进行了详细的解释。

3.准局部方法。

(1)The Local Path Index(LPI)也是基于Katz指标,但是对路径的数量进行了限制。\large \l=2时该方法就等价于上述的CN方法,由于时间复杂度,该方法使用时通常令\large \l=3,效果较好。公式为:S=\sum_{i=2}^{l}\beta^{i-2}A^{i}

(2)Local Random Walks(LRW)局部随机游走算法。基于随机游走算法,但是固定了迭代的次数\large \l。公式为:

由于网络的形成是一个复杂的过程,受到很多因素的影响,因此不可能设计一个方法比其他的方法在任意的网络上效果都好。下图在Víctor Martínez等人在YST,CEL等数据集上对这些方法进行了实验,可以发现局部法和准局部法效果较好。

 

概率统计的方法包括了层次结构模型,随机块模型等。层次结构模型应用在一些符合层次结构的网络中,如互联网域名、蛋白质的交互作用,用树状图来表示网络,树状图中的每一个内部节点有个概率\large p_n,表示它的每一个子节点是它后代的概率。随机块模型认为一些节点是在一个块中,它们之间的相似性取决于它们是否在一个块中。预处理方法的思想是减少网络中的噪音,去除一些很弱的链接或者错误的链接,来提高上述算法的概率。如Low-Rank Approximation方法,尝试减少网络原始的邻接矩阵与减少了排名较低的低秩矩阵的代价函数。再如Filtering方法,直接将最弱的链接删除掉,以避免歧义。该方法可以直接在上述的方法中使用。

目前链接预测效果最好的是Deepak等人提出的基于注意力的关系预测,如果对注意力机制不了解的可以参考深度学习中的注意力机制一文。由于基于cnn的链接预测独立的处理三元组,因此网络中潜在的关系难以被挖掘,而基于注意力机制的方法可以捕获给定实体邻域的多跳关系。不过Deepak等人的方案是仅仅适用于关系预测(即链接预测中的(h,?,t)型)。当然,注意力机制也可以在cnn中使用,或者对Self Attention进行实验进行探索。

本文中的链接预测主要是针对无向图的,在有向图中的预测有待进一步学习。在实验中,评估某种嵌入模型在链接预测上的能力,比较常见的参数由平均等级(Mean Rank)、平均倒数等级(Mean Reciprocal Rank)、和命前n(Hist@n)。相信随着精度的不断提升,相信链接预测可以在更多的领域中发挥作用。

 

参考文献:

1.A Survey of Link Prediction in Complex Networks

2.重启随机游走算法(RWR)

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值