目录
前言
第一部分:Physica A 2020 | 链接预测综述(一):基于相似性的方法
2.2 概率和最大似然模型
对于一个给定的网络 G = ( V , E ) G=(V, E) G=(V,E),我们需要优化目标函数,进而得到由多个参数组成的概率模型。此时,我们可以根据条件概率 P ( A i j = 1 ∣ θ ) P(A_{ij}=1 | \theta) P(Aij=1∣θ)来评估节点间存在链接的可能性。
概率模型除了需要结构信息外,通常还需要节点和边的属性信息,但提取这些属性信息并不容易。此外,在这种限制其适用性的模型中,参数调整也是一件大事。极大似然方法复杂且耗时,因此这些模型不适用于实际的大型网络。
2.3 降维技术
关于链接预测,最近有许多人正在研究网络嵌入和矩阵分解技术,这也被认为是降维技术。
2.3.1 网络嵌入
关于网络嵌入的概念,前面已经讲解了很多,这里就不再重复了。
网络嵌入的主要组成部分是编码函数或编码器
f
e
n
f_{en}
fen,它将每个节点映射到嵌入空间,如下图所示:
我们有:
f
e
n
(
x
)
=
z
x
f_{en}(x)=z_x
fen(x)=zx
这里
z
x
z_x
zx是节点
x
x
x的
d
d
d维嵌入表示,于是我们有嵌入矩阵
Z
∈
R
d
×
∣
V
∣
Z \in R^{d \times |V|}
Z∈Rd×∣V∣,
Z
Z
Z中每一列都表示一个节点的嵌入表示。
有了嵌入表示后,我们就可以定义相似性函数如下:
S
(
x
,
y
)
≈
z
x
T
z
y
S(x, y)\approx z_x^Tz_y
S(x,y)≈zxTzy
S
(
x
,
y
)
S(x,y)
S(x,y)是从生成的嵌入中重建成对相似性值的函数。不同的嵌入方法有不同的方式来保持一阶邻近度或者更高阶的邻近度,例如图分解技术使用
S
(
x
,
y
)
=
A
(
x
,
y
)
S(x,y)=A_{(x,y)}
S(x,y)=A(x,y)来捕捉一阶邻近性。大多数嵌入方法通过优化以下损失函数来实现重建目标:
简单来说,就是要求根据模型生成的嵌入表示得到的相似性度量和定义的相似性度量更加接近。有了嵌入表示后,我们就可以将之用于推断缺失的链接和其他下游机器学习任务。
2.3.2 矩阵分解
在过去的十年中,链接预测和推荐系统的许多论文都使用了矩阵分解。矩阵分解通常提取潜在特征,并使用这些特征来表示每个顶点,然后再用于链接预测。
假设输入数据表示为
X
=
(
x
1
,
.
.
.
,
x
n
)
X=(x_1,...,x_n)
X=(x1,...,xn),其中每一个
x
x
x都表示一个向量。那么,矩阵
X
X
X的因式分解可以表示为:
X
≈
F
G
T
X\approx FG^T
X≈FGT
这里
X
∈
R
p
×
n
X \in R^{p \times n}
X∈Rp×n,
F
∈
R
p
×
k
F \in R^{p \times k}
F∈Rp×k,
G
∈
R
n
×
k
G \in R^{n \times k}
G∈Rn×k。简单来说,矩阵的因式分解就是将矩阵变为多个矩阵相乘。
在上式中, F F F包含表示空间的基,被称为基矩阵。 G G G包含为了重构 X X X所需的基的系数的组合,被称为系数矩阵。 k k k为表示空间的维度,满足 k < n k < n k<n。
一些常见的矩阵分解是基于对这三个矩阵中任何一个进行约束后得到的。比如:
对矩阵进行分解之后,我们可以通过系数矩阵G中第
x
x
x行和第
y
y
y行向量的相似性来计算节点
x
x
x和节点
y
y
y之间的相似性,进而判断是否存在链接。
2.4 其他方法
2.4.1 基于学习的链接预测框架
链接预测问题也可以建模为基于学习的模型,该问题被转换为一个监督分类模型,其中一个点(即训练数据)对应于网络中的一个顶点对,该点的标签表示这对顶点对之间是否存在边(链接)。换句话说,考虑图
G
(
V
,
E
)
G(V,E)
G(V,E)中的顶点对
(
x
,
y
)
(x,y)
(x,y),其在分类模型中对应的数据点的标签为
l
x
y
l_{xy}
lxy:
因此,链接预测实际上就是一个二分类问题,输入一个节点对的特征信息,然后输出+1或者-1。
监督分类的主要挑战在于模型的输入,即我们要提取节点对的特征。现有的大多数研究工作都是从网络拓扑(即网络的拓扑信息)中提取特征集。这些特征是典型的、邻域的和基于路径的特征。其他一些工作集中于提取节点和链接特征,这些特征对提高链路预测性能起着关键作用。
2.4.2 聚类
一些论文中使用广义聚类系数作为预测参数,在论文中作者介绍了一个循环形成模型,该模型显示了链路发生概率与其形成不同长度循环的能力之间的关系。该模型表明,特定链路的发生概率取决于添加该链路所形成的不同长度循环的数量。
广义聚类系数
C
(
k
)
C(k)
C(k)定义如下:
其中
k
k
k是循环形成模型的阶数。
2.4.3 Structural perturbation method (SPM)
SPM中使用了一个结构一致性指数来量化链接的可预测性,该指数基于这样一种假设:如果在添加或删除一小部分链接后,结构特征没有发生重大变化,那么网络中的链接是高度可预测的。基于这个指标,研究者提出了一个新的相似性指标,即结构摄动法(SPM)。实验结果表明,与论文中的最新技术相比,该系统具有优异的性能。
3. 实验设置和结果分析
3.1 评价指标
链接预测可以被当做一个二分类问题,因此二分类任务的评价指标基本都适用于链接预测。
二分类任务中的一个重要概念就是混淆矩阵:
TP、FP、FN、TN的定义如下:
注意,以上四个概念都是针对某一个具体的类别来说的。对于类别
c
c
c来说,true是指预测正确,false是指预测错误,P是预测为
c
c
c,N是指预测为其他类。举个例子,FP就是预测为
c
c
c但是预测错误、TN是指预测为其他类且预测正确。
基于混淆矩阵,我们可以得到以下几个指标:
(1)True Positive Rate (TPR)/Recall/Sensitivity
TPR又被称为查全率:
T
P
R
=
T
P
T
P
+
F
N
TPR=\frac{TP}{TP+FN}
TPR=TP+FNTP
TPR表示所有真实标签为
c
c
c的样本中预测正确的比例。
(2)False Positive Rate (FPR)
FPR:
F
P
R
=
F
P
F
P
+
T
N
FPR=\frac{FP}{FP+TN}
FPR=FP+TNFP
FP表示真实类别为其他类,但预测为
c
c
c类,TN表示真实类别为其他类,并且预测正确。因此FPR表示所有真实标签为其他类的样本中预测错误的比例。
(3)True Negative Rate (TNR)/Specificity
TNR:
T
N
R
=
T
N
T
N
+
F
P
TNR=\frac{TN}{TN+FP}
TNR=TN+FPTN
FP表示真实类别为其他类,但预测为
c
c
c类,TN表示真实类别为其他类,并且预测正确。因此TNR表示所有真实标签为其他类的样本中预测正确的比例。即:
T
N
R
=
1
−
F
P
R
TNR=1-FPR
TNR=1−FPR。
(4)Precision
P
r
e
c
i
s
i
o
n
=
T
P
T
P
+
F
P
Precision=\frac{TP}{TP+FP}
Precision=TP+FPTP
Precision表示所有预测为
c
c
c的样本中预测正确的比例。