传统图机器学习方法–边级别:边的预测任务和特征
1概述
该任务是基于现有的链接来预测新的链接。
在测试时,对所有节点对(不存在连接)进行排名,排名前K的节点对是将被预测的。
关键是为一对节点设计特征
链接预测作为任务
链接预测任务中有两种形式:
**1) Links missing at random: **删除一组随机的链接,然后目标是预测它们
2) Links over time:
通过相似度的链接预测
背后思想**(研究方法Methodology)😗*
2边级别的特征
- 基于距离的特征Distance-based feature
- 局部邻域重叠度Local neighborhood overlap
- 全局邻域重叠度Global neighborhood overlap
基于距离的特征Distance-based feature
两个节点之间的最短路径距离
但是这并不能捕捉到邻居重叠的程度:
局部邻域重叠度Local neighborhood overlap
尝试捕获两个节点的连接强度。(有多少个共同的邻居)
Local neighborhood overlap捕获两个节点间共享的邻居节点。
连接强度的(捕获的度量)可以有以下三种:
全局邻域重叠度Global neighborhood overlap
局部邻域重叠度有一些局限:比如,如果这两个节点没有任何共同的邻居,则度量始终为零。然而,这两个节点将来仍有可能被连接起来。
全局邻域重叠度量法通过考虑整个图来解决这一限制性。
Katz index:计算给定的一对节点之间所有长度的路径数。
那么如何计算两个节点之间的路径?使用图形邻接矩阵的幂次!
Katz index在节点 v 1 v1 v1和 v 2 v2 v2之间的计算为:
3边级别的特征总结
基于距离的特征:计算两个节点间的最短路径长度,但是并不能捕获邻居重叠度。
局部邻域重叠度:捕获两个节点共享多少个邻居节点。当两个节点没有共享邻居时,返回0.
全局邻域重叠度:用全局图结构去给两个节点间(的边)打分。Katz指数计算计算给定的一对节点之间所有长度的路径数。