评价算法相关性的方法-2
在之前的文章中,我们介绍了肯德尔系数的原理及实现方法,本文章我们介绍另外两种度量不同算法相关性的办法[3][4]:
1.不精确函数(imprecision function):
该方法最早由 Kitsak等人[1]提出,其形式为:
ϵ
(
p
)
=
1
−
M
(
p
)
M
e
f
f
(
p
)
\epsilon(p)=1-\frac{M(p)}{M_{eff}(p)}
ϵ(p)=1−Meff(p)M(p)
这里
p
∈
[
0
,
1
]
p\in[0,1]
p∈[0,1]表示选取的排名靠前节点的比例,
M
(
p
)
M(p)
M(p)和
M
e
f
f
(
p
)
M_{eff}(p)
Meff(p)表示当比例系数为p时,两类方法产生的平均影响范围(例如,当取排名前10的节点执行100次不同指标的平均影响力),
M
(
p
)
M(p)
M(p)表示某类新提出的方法,
M
e
f
f
(
p
)
M_{eff}(p)
Meff(p)表示通过传播模型实际传播的方法。该函数用来评价两类方法的差异。
ϵ
\epsilon
ϵ值越小,特定方法评价的越准确。
2.单调性函数(Monotonicity):
见文献[2],该方法用来衡量所提方法对排序结果的区分能力。其形式为:
M
(
T
)
=
(
1
−
∑
i
∈
T
V
t
(
V
t
−
1
)
V
(
V
−
1
)
)
2
M(T)=(1-\frac{\sum_{i\in T} V_t(V_t-1)}{V(V-1)})^2
M(T)=(1−V(V−1)∑i∈TVt(Vt−1))2
这里
V
t
V_t
Vt表示同一排名的节点数量,即依次考察每个排名位置中有几个节点(不能很好区分节点的能力),该评价指标越大,则该方法就具备更好的区分能力(单一性)。
例如上图中,列方向上代表每个指标在当前数据集上,不同排名上的节点数量占比形成的式子,即该列的评价指标对节点的区分度。
参见论文:
[1] M. Kitsak, L.K. Gallos, S. Havlin, F. Liljeros, L. Muchnik, H.E. Stanley, H.A. Makse, Identification of influential spreaders in complex networks, Nat. Phys. 6(11) (2010) 888–893.
[2] J. Bae, S. Kim, Identifying and ranking influential spreaders in complex networks by neighborhood coreness, Phys. A 395 (4) (2014) 549–559.
[3]A novel potential edge weight method for identifying influential nodes in complex networks based on neighborhood and position
[4]Finding influential nodes in social networks based on neighborhood
correlation coefficient