《Identifying sets of key players in a social network》阅读笔记
引用:[1] Borgatti S P . Identifying sets of key players in a social network[J]. Computational & Mathematical Organization Theory, 2006, 12(1):21-34.
本文提出了一种对关键节点集的分类:KPP-POS和KPP-NEG,KPP-POS表示对该节点集重要性的衡量是其与周围网络连接的紧密程度;KPP-NEG表示对该节点集重要性的判断是通过衡量移除该节点后网络性能的下降程度。(需要注意的是,研究对象是k个节点的节点集,并不代表直接将前k个最优个体直接组合)
那么如何定义紧密程度以及网络性能:KPP-Neg涉及将网络分割成连通片,或者使节点之间的路径长度大到相当于断开连接;KPP-Pos涉及找到可以通过直接链接或短路径到达尽可能多的剩余节点的节点。
目前已有研究方法面临的主要问题:
(1)目标方面:目前比较符合KPP-Neg的中心性度量是介数,但实际上它并不是在任何情况下都能找到符合我们预期的点,图论中也存在一种“cutpoint”定义上符合我们对切分网络的预期,但是它仍存在不足之处:比如对具体的切分效果并没有区分度,对于不存在符合“cutpoint”定义的点的图就无从入手,所以也不符合我们能测量移除节点后图的碎片化程度的希望。比较符合KPP-Pos的中心性度量是度中心性或者接近中心性。
(2)集成性方面:选择节点集并不代表等价于将最优的个体直接放在一个集合里。比如对于KPP-Neg,要注意节点集中的点是否有冗余效果(即两个点虽然分别判断时对破坏图的连接性都有很好的作用,但是他们的中心性并不独立,如下图的i与h)
图论中有“vertex cut-set”的概念,但是与我们的需求刚好相反:我们的目标是指定节点集大小后选择节点,使得其对图的分割效果最好;而图论中割集要解决的问题是已经有确定的分割效果目标后,如何选择满足要求的最小集合。同样地,冗余原则也是选择KPP-Pos节点集时需注意的问题,如果节点集中的节点有结构等价的关系(连接到几乎相同的节点),那就产生了冗余。图论中有顶点覆盖和支配集的概念,但也与我们的需求刚好相反:我们的目标是找到指定节点集大小后选择效果最好的节点;但图论的目标是指定要覆盖的范围后找到最小的能满足要求的节点集。
所以我们针对需求提出了以下几种方法:
A. KPP-Neg隐含的概念是图碎片
第一种网络碎片化的度量:记分割后碎片数量为
C
C
C,除以节点数
n
n
n正规化后为:
C
O
M
P
F
=
C
n
^{COMP}F=\frac{C}{n}
COMPF=nC 第二种度量考虑了彼此断开连接的节点数量:
F
=
1
−
2
∑
i
∑
j
<
i
r
i
j
n
(
n
−
1
)
=
1
−
∑
k
s
k
(
s
k
−
1
)
n
(
n
−
1
)
F=1-\frac{2\sum_{i}\sum_{j<i}{r_{ij}}}{n(n-1)}=1-\frac{\sum_{k}{s_k(s_k-1)}}{n(n-1)}
F=1−n(n−1)2∑i∑j<irij=1−n(n−1)∑ksk(sk−1)(
r
i
j
r_{ij}
rij表示节点之间连接与否;
s
k
s_k
sk表示第
k
k
k个碎片的节点数)
第三种度量与第二种相似:
H
=
1
−
∑
k
(
s
k
n
)
2
H=1-\sum_k{\left(\frac{s_k}{n}\right)^2}
H=1−k∑(nsk)2他与第二种度量的相似之处在于当网络未被分割时,都等于零,当网络被最大程度的分割时,H可达到的最大值为
1
−
1
/
n
1-1/n
1−1/n,而F可达的最大值为1。
第四种度量时信息熵:
E
=
−
∑
k
s
k
n
l
n
(
s
k
n
)
E=-\sum_k{\frac{s_k}{n}ln\left(\frac{s_k}{n}\right)}
E=−k∑nskln(nsk) 第五种度量为了能够衡量去掉关键节点后节点间的总距离:
D
F
=
1
−
2
∑
i
>
j
1
d
i
j
n
(
n
−
1
)
^{D}F=1-\frac{2\sum_{i>j}{\frac{1}{d_{ij}}}}{n(n-1)}
DF=1−n(n−1)2∑i>jdij1该度量方式可以捕捉到碎片的相对内聚性。
B. KPP-Pos隐含的概念是组间凝聚力
第一种度量是计算关键点集与网络其余点集之间的内聚量:
C
K
=
∑
i
∈
K
,
j
∈
V
−
K
a
i
j
C_K=\sum_{i\in K,j\in V-K}{a_{ij}}
CK=i∈K,j∈V−K∑aij 第二种度量是建立在第一种度量的基础上,为了避免关键节点集中出现结构相似的节点:
C
K
=
∑
j
∈
V
−
K
⋃
i
∈
K
a
i
j
C_K=\sum_{j\in V-K}{\bigcup_{i\in K}{a_{ij}}}
CK=j∈V−K∑i∈K⋃aij 第三种度量加入了距离的概念,即设定最多m步可达,则记入可达范围:
C
K
=
∑
j
∈
V
−
K
⋃
i
∈
K
m
r
i
j
C_K=\sum_{j\in V-K}{\bigcup_{i\in K}{^mr_{ij}}}
CK=j∈V−K∑i∈K⋃mrij但这种方法的缺点是将所有长度小于m的路径看作同等重要,并且忽略了所有长度大于m的路径。
第四种度量加入了距离的倒数,更加敏感:
C
K
=
∑
j
∈
V
−
K
⋃
i
∈
K
1
d
i
j
C_K=\sum_{j\in V-K}{\bigcup_{i\in K}{\frac{1}{d_{ij}}}}
CK=j∈V−K∑i∈K⋃dij1 第五种度量定义了所有节点到关键节点集的最短距离
d
K
j
d_{Kj}
dKj
D
R
=
∑
j
1
d
K
j
n
^DR=\frac{\sum_j{\frac{1}{d_{K_j}}}}{n}
DR=n∑jdKj1 有了对目标函数的定义就可以进行组合选择了,主要方法有两种:一是先找到最优个体,然后依次找冗余最少的下一个最优个体;二是通过优化组合的智能算法搜索,也就是本文推荐的方法,比如禁忌搜索、模拟退火或者遗传算法等。
关于网络关键节点分析的经典论文(一)
最新推荐文章于 2023-02-20 07:30:00 发布