##介绍
网络是复杂系统的基本工具,即使有的网络是稀疏的,依然会有的边趋向于出现在小的聚集结构中,这种聚集结构可以解释为局部演化过程。例如社会网络中聚集结构的出现是源于三角形,其中两个人共有一个朋友,则更可能成为朋友,形成闭三角。聚集系数是度量网络中的三角形数量,定义为三节点中闭合的比例。然而聚集系数是有限制的,只涉及三角形,更多节点的高阶结构也是重要的,四节点就反映词组和蛋白质网络的结构,但是高阶结构的聚集系数是没有的。这里根据测量高阶结构中闭合的比例提出高阶聚集系数。
首先考虑二节点团,找到与之相连的第三条边和节点,原来的聚集系数就是这种三节点结构中闭合的比例
(1)
C
=
6
∣
K
3
∣
∣
W
∣
C=\frac{6|K_3|}{|W|}\tag{1}
C=∣W∣6∣K3∣(1)
相应可以定义局部聚集系数
(2)
C
(
u
)
=
2
∣
K
3
(
u
)
∣
∣
W
(
u
)
∣
C(u)=\frac{2|K_3(u)|}{|W(u)|}\tag{2}
C(u)=∣W(u)∣2∣K3(u)∣(2)
平均聚集系数
(3)
C
‾
=
1
∣
V
~
∣
∑
u
∈
V
~
C
(
u
)
\overline{C}=\frac{1}{|\widetilde{V}|}\sum_{u\in\widetilde{V}}C(u)\tag{3}
C=∣V
∣1u∈V
∑C(u)(3)
类似的,由
l
l
l节点团扩展到
l
+
1
l+1
l+1节点,则
(4)
C
l
=
(
l
2
+
l
)
∣
K
l
+
1
∣
∣
W
l
∣
C_l=\frac{(l^2+l)|K_{l+1}|}{|W_l|}\tag{4}
Cl=∣Wl∣(l2+l)∣Kl+1∣(4)
局部聚集系数
(5)
C
l
(
u
)
=
l
∣
K
l
+
1
(
u
)
∣
∣
W
l
(
u
)
∣
C_l(u)=\frac{l|K_l+1(u)|}{|W_l(u)|}\tag{5}
Cl(u)=∣Wl(u)∣l∣Kl+1(u)∣(5)
平均聚集系数
(6)
C
‾
l
=
1
∣
V
~
l
∣
∑
u
∈
V
~
l
C
l
(
u
)
\overline{C}_l=\frac{1}{|\widetilde{V}_l|}\sum_{u\in\widetilde{V}_l}C_l(u)\tag{6}
Cl=∣V
l∣1u∈V
l∑Cl(u)(6)
(7)
∣
W
l
(
u
)
∣
=
∣
K
l
(
u
)
∣
(
d
u
−
l
+
1
)
|W_l(u)|=|K_l(u)|(d_u-l+1)\tag{7}
∣Wl(u)∣=∣Kl(u)∣(du−l+1)(7)
其中
d
u
d_u
duS 节点
u
u
u的度,替换公式
(
5
)
(5)
(5)则有
(8)
C
l
(
u
)
=
l
∣
K
l
+
1
(
u
)
∣
(
d
u
−
l
+
1
)
∣
K
l
(
u
)
∣
C_l(u)=\frac{l|K_{l+1}(u)|}{(d_u-l+1)|K_l(u)|}\tag{8}
Cl(u)=(du−l+1)∣Kl(u)∣l∣Kl+1(u)∣(8)
通过枚举所有
l
+
1
l+1
l+1和
l
l
l节点的团,能计算局部
l
t
h
−
o
r
d
e
r
l\ th-order
l th−order的聚集系数,复杂度取决于枚举的时间,使用Chiba和Nishizeki算法,复杂度是
O
(
l
a
l
−
2
m
)
O(la^{l-2}m)
O(lal−2m),其中
m
m
m是边数,
a
a
a是一种边密度。
a
a
a可能与
m
\sqrt{m}
m一样大,若
l
l
l为常数,则是多项式时间,在至少
l
l
l节点上确定是否有一个团是
N
P
C
NPC
NPC问题。对于全局聚集系数,则有
∣
W
l
∣
=
∑
u
∈
V
∣
W
l
(
u
)
∣
|W_l|=\sum_{u\in V}|W_l(u)|
∣Wl∣=∑u∈V∣Wl(u)∣。
局部聚集系数可以解释成从所有以节点
u
u
u为中心的wedge中随机挑选的一个是闭合的概率
(10)
C
l
(
u
)
=
P
[
w
∈
K
l
+
1
(
u
)
]
C_l(u)=\mathbb{P}[w\in K_{l+1}(u)]\tag{10}
Cl(u)=P[w∈Kl+1(u)](10)
定义1-hop邻居图
N
1
(
u
)
N_1(u)
N1(u),节点
u
u
u周围相邻的节点组成
N
1
(
u
)
N_1(u)
N1(u)的节点,原来的这些节点之间的连边组成
N
1
(
u
)
N_1(u)
N1(u)的边。于是公式
(
8
)
(8)
(8)为
(11)
l
∣
K
l
[
N
1
(
U
)
]
∣
(
d
u
−
l
+
1
)
∣
K
l
−
1
[
N
1
(
u
)
]
∣
\frac{l|K_l[N_1(U)]|}{(d_u-l+1)|K_{l-1}[N_1(u)]|}\tag{11}
(du−l+1)∣Kl−1[N1(u)]∣l∣Kl[N1(U)]∣(11)
其中
K
k
[
N
1
(
u
)
]
K_k[N_1(u)]
Kk[N1(u)]记为
N
1
(
u
)
N_1(u)
N1(u)中有
k
k
k节点团的个数。如果从
N
1
(
u
)
N_1(u)
N1(u)随机选
l
−
1
l-1
l−1节点团,然后再从剩下的点选一个节点
v
v
v,这
l
l
l个点组成
l
l
l节点团的概率就是
(12)
C
l
(
u
)
=
P
[
K
∪
{
v
}
∈
K
l
[
N
1
(
u
)
]
]
C_l(u)=\mathbb{P}[K\cup\{v\}\in K_l[N_1(u)]]\tag{12}
Cl(u)=P[K∪{v}∈Kl[N1(u)]](12)
C
l
−
1
(
u
)
⋅
C
l
(
u
)
C_{l-1}(u)\cdot C_l(u)
Cl−1(u)⋅Cl(u)是
l
−
1
l-1
l−1节点团和两个随机挑选节点组成
l
+
1
l+1
l+1节点团的概率,则
(13)
∏
j
=
2
l
C
j
(
u
)
=
∣
K
l
[
N
1
(
u
)
]
∣
(
l
d
u
)
\prod_{j=2}^lC_j(u)=\frac{|K_l[N_1(u)]|}{(^{d_u}_l)}\tag{13}
j=2∏lCj(u)=(ldu)∣Kl[N1(u)]∣(13)
对于任意固定
l
>
3
l>3
l>3,
(14)
0
≤
C
l
(
u
)
≤
C
2
(
u
)
0\leq C_l(u)\leq\sqrt{C_2(u)}\tag{14}
0≤Cl(u)≤C2(u)(14)
1.存在有限图
G
G
G使下界成立,当
C
2
(
u
)
∈
[
0
,
l
−
2
l
−
1
]
C_2(u)\in[0,\frac{l-2}{l-1}]
C2(u)∈[0,l−1l−2]。
2.存在有限图
G
G
G使上界成立,当
C
2
(
u
)
∈
[
0
,
1
]
C_2(u)\in[0,1]
C2(u)∈[0,1]。
0
≤
C
l
(
u
)
0\leq C_l(u)
0≤Cl(u)是显然的,当
N
1
(
u
)
N_1(u)
N1(u)如上图2所示时,
C
2
(
u
)
=
l
−
2
l
−
1
C_2(u)=\frac{l-2}{l-1}
C2(u)=l−1l−2,通过删去一些边可使范围在
[
0
,
l
−
2
l
−
1
]
[0,\frac{l-2}{l-1}]
[0,l−1l−2]。定义
(15)
δ
l
[
N
1
(
u
)
]
=
∣
K
l
[
N
1
(
u
)
]
∣
(
l
d
u
)
\delta_l[N_1(u)]=\frac{|K_l[N_1(u)]|}{(^{d_u}_l)}\tag{15}
δl[N1(u)]=(ldu)∣Kl[N1(u)]∣(15)记为
N
1
(
u
)
N_1(u)
N1(u)的
l
−
c
l
i
q
u
e
l-clique
l−clique密度,由文献中的定理则有
δ
l
[
N
1
(
u
)
]
≤
[
δ
l
−
1
[
N
1
(
u
)
]
]
l
/
(
l
−
1
)
\delta_l[N_1(u)]\leq[\delta_{l-1}[N_1(u)]]^{l/(l-1)}
δl[N1(u)]≤[δl−1[N1(u)]]l/(l−1)
δ
[
N
1
(
u
)
]
≤
[
δ
2
[
N
1
(
u
)
]
]
(
l
−
1
)
/
2
\delta[N_1(u)]\leq[\delta_2[N_1(u)]]^{(l-1)/2}
δ[N1(u)]≤[δ2[N1(u)]](l−1)/2
再由公式
(
8
)
(8)
(8)知
C
l
(
u
)
≤
[
δ
l
−
1
[
N
1
(
u
)
]
]
1
l
−
1
≤
δ
2
[
N
1
(
u
)
]
=
C
2
(
u
)
C_l(u)\leq[\delta_{l-1}[N_1(u)]]^{\frac{1}{l-1}}\leq\sqrt{\delta_2[N_1(u)]}=\sqrt{C_2(u)}
Cl(u)≤[δl−1[N1(u)]]l−11≤δ2[N1(u)]=C2(u)
若
N
1
(
u
)
N_1(u)
N1(u)由
c
c
c个节点的
c
l
i
q
u
e
clique
clique和
b
b
b个孤立节点组成,当
l
=
2
l=2
l=2时有
C
l
(
u
)
=
(
2
c
)
(
2
c
+
b
)
=
(
c
−
1
)
c
(
c
+
b
−
1
)
(
c
+
b
)
→
(
c
c
+
b
)
2
C_l(u)=\frac{(^c_2)}{(^{c+b}_2)}=\frac{(c-1)c}{(c+b-1)(c+b)}\rightarrow(\frac{c}{c+b})^2
Cl(u)=(2c+b)(2c)=(c+b−1)(c+b)(c−1)c→(c+bc)2
当
3
≤
l
≤
c
3\leq l\leq c
3≤l≤c时有
C
l
(
u
)
=
l
(
l
c
)
(
c
+
b
−
l
+
1
)
(
l
−
1
c
)
=
c
−
l
+
1
c
+
b
−
l
+
1
→
c
c
+
b
C_l(u)=\frac{l(^c_l)}{(c+b-l+1)(^c_{l-1})}=\frac{c-l+1}{c+b-l+1}\rightarrow\frac{c}{c+b}
Cl(u)=(c+b−l+1)(l−1c)l(lc)=c+b−l+1c−l+1→c+bc
当
d
u
→
∞
d_u\rightarrow\infty
du→∞时有
C
2
(
u
)
∈
[
0
,
1
]
C_2(u)\in[0,1]
C2(u)∈[0,1],且
C
l
(
u
)
→
C
2
(
u
)
C_l(u)\rightarrow\sqrt{C_2(u)}
Cl(u)→C2(u)。
现在来看高阶聚类系数在随机图模型的情况,其中每条边都有独立的概率
p
p
p,为了使图中至少有一个
l
−
w
e
d
g
e
l-wedge
l−wedge,这里假设
l
l
l比较小,设
p
p
p和
n
n
n都比较大,则对于任意
ϵ
>
0
\epsilon>0
ϵ>0,clique的节点数量小于
(
2
+
ϵ
)
l
o
g
n
/
l
o
g
(
1
/
p
)
(2+\epsilon)log\ n/log(1/p)
(2+ϵ)log n/log(1/p)。在
G
n
,
p
G_{n,p}
Gn,p模型中,当且仅当
l
−
c
l
i
q
u
e
l-clique
l−clique中有
l
−
1
l-1
l−1条边出现并有另外一节点与之相邻时,则形成
l
−
w
e
d
g
e
l-wedge
l−wedge,这
l
−
1
l-1
l−1条边的存在概率与
p
l
−
1
p^{l-1}
pl−1有关。
令
G
G
G为随机图模型
G
n
,
p
G_{n,p}
Gn,p,对于常数
l
l
l,
(
1
)
E
G
[
C
l
]
=
p
l
−
1
(1)\ \mathbb{E}_G[C_l]=p^{l-1}
(1) EG[Cl]=pl−1
(
2
)
E
G
[
C
l
(
u
)
∣
W
l
(
u
)
>
0
]
=
p
l
−
1
(2)\ \mathbb{E}_G[C_l(u)|W_l(u)>0]=p^{l-1}
(2) EG[Cl(u)∣Wl(u)>0]=pl−1
(
3
)
E
G
[
C
‾
l
]
=
p
l
−
1
(3)\ \mathbb{E}_G[\overline{C}_l]=p^{l-1}
(3) EG[Cl]=pl−1
E
[
C
l
]
=
E
G
[
E
W
l
[
C
l
∣
W
l
]
]
=
E
[
E
W
l
[
1
∣
W
l
∣
∑
w
∈
W
l
P
[
w
i
s
c
l
o
s
e
d
]
]
]
=
E
G
[
E
W
l
[
1
∣
W
l
∣
∑
w
∈
W
l
p
l
−
1
]
]
=
E
G
[
p
l
−
1
]
=
p
l
−
1
\mathbb{E}[C_l]=\mathbb{E}_G[\mathbb{E}_{W_l}[C_l|W_l]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}[\mathbb{E}_{W_l}[\frac{1}{|W_l|}\sum_{w\in W_l}\mathbb{P}[w\ is\ closed]]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}_G[\mathbb{E}_{W_l}[\frac{1}{|W_l|}\sum_{w\in W_l}p^{l-1}]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}_G[p^{l-1}]\\ \ \ \ \ \ \ \ \ \ =p^{l-1}
E[Cl]=EG[EWl[Cl∣Wl]] =E[EWl[∣Wl∣1∑w∈WlP[w is closed]]] =EG[EWl[∣Wl∣1∑w∈Wlpl−1]] =EG[pl−1] =pl−1
对于比较小的
l
l
l,第二个等号成立,第三个等号成立是因为当且仅当
l
−
1
l-1
l−1条边存在时,l-wedge是闭合的。第二部分的证明本质上是相同的,不同的是条件期望是基于所有可能的
W
l
(
u
)
>
0
W_l(u)>0
Wl(u)>0。
V
~
\tilde{V}
V~是至少在一个l-wedge中的节点集合,基于
V
~
\tilde{V}
V~的条件期望,加上第二部分结论,能有第三部分结果。以上的全局、局部和平均聚集系数随
l
l
l增大而指数减小。
G
G
G是
G
n
,
p
G_{n,p}
Gn,p模型的随机图,对于常数
l
l
l,
E
G
[
C
l
(
u
)
∣
C
2
(
u
)
,
W
l
(
u
)
>
0
]
=
[
C
2
(
u
)
−
[
1
−
C
2
(
u
)
]
O
(
1
/
d
u
2
)
]
l
−
1
≈
[
C
2
(
u
)
]
l
−
1
\mathbb{E}_G[C_l(u)|C_2(u),W_l(u)>0]=[C_2(u)-[1-C_2(u)]O(1/d_u^2)]^{l-1}\approx[C_2(u)]^{l-1}
EG[Cl(u)∣C2(u),Wl(u)>0]=[C2(u)−[1−C2(u)]O(1/du2)]l−1≈[C2(u)]l−1
基于
W
l
(
u
)
>
0
W_l(u)>0
Wl(u)>0的条件期望
E
G
[
C
l
(
u
)
∣
C
2
(
u
)
,
W
l
(
u
)
>
0
]
=
E
G
[
E
W
l
(
u
)
>
0
[
C
l
(
u
)
∣
C
2
(
u
)
,
W
l
(
u
)
]
]
=
E
G
[
E
W
l
(
u
)
>
0
[
1
∣
W
l
(
u
)
∣
∑
w
∈
W
l
(
u
)
P
[
w
c
l
o
s
e
d
∣
C
2
(
u
)
]
]
]
\mathbb{E}_G[C_l(u)|C_2(u),W_l(u)>0]=\mathbb{E}_G[\mathbb{E}_{W_l(u)>0}[C_l(u)|C_2(u),W_l(u)]]=\mathbb{E}_G[\mathbb{E}_{W_l(u)>0}[\frac{1}{|W_l(u)|}\sum_{w\in W_l(u)}\mathbb{P}[w\ closed\ |\ C_2(u)]]]
EG[Cl(u)∣C2(u),Wl(u)>0]=EG[EWl(u)>0[Cl(u)∣C2(u),Wl(u)]]=EG[EWl(u)>0[∣Wl(u)∣1w∈Wl(u)∑P[w closed ∣ C2(u)]]]
注意到
N
1
(
u
)
N_1(u)
N1(u)有
m
=
C
2
(
u
)
(
2
d
u
)
m=C_2(u)(_2^{d_u})
m=C2(u)(2du)条边,对于
w
∈
W
l
(
u
)
w\in W_l(u)
w∈Wl(u)来说,其中
W
l
(
u
)
W_l(u)
Wl(u)就有
(
2
l
−
1
)
(_2^{l-1})
(2l−1)条边,剩余
q
=
m
−
(
2
l
−
1
)
q=m-(_2^{l-1})
q=m−(2l−1)条边,在剩下的
r
=
(
2
d
u
)
−
(
2
l
−
1
)
r=(_2^{d_u})-(_2^{l-1})
r=(2du)−(2l−1)个节点对中随机出现。这些边出现的可能有
(
q
r
)
(_q^r)
(qr)种,而
w
w
w要形成闭合的,则有
(
q
−
l
+
1
r
−
l
+
1
)
(_{q-l+1}^{r-l+1})
(q−l+1r−l+1)种,于是
P
[
w
i
s
c
l
o
s
e
d
∣
C
2
(
u
)
]
=
(
q
−
l
+
1
r
−
l
+
1
)
(
q
r
)
=
(
r
−
l
+
1
)
!
q
!
(
q
−
l
+
1
)
!
r
!
=
(
q
−
l
+
2
)
(
q
−
l
+
3
)
…
q
(
r
−
l
+
2
)
(
r
−
l
+
3
)
…
r
\mathbb{P}[w\ is\ closed\ |C_2(u)]=\frac{(_{q-l+1}^{r-l+1})}{(_q^r)}=\frac{(r-l+1)!q!}{(q-l+1)!r!}=\frac{(q-l+2)(q-l+3)\dots q}{(r-l+2)(r-l+3)\dots r}
P[w is closed ∣C2(u)]=(qr)(q−l+1r−l+1)=(q−l+1)!r!(r−l+1)!q!=(r−l+2)(r−l+3)…r(q−l+2)(q−l+3)…q
对于任意小的非负整数
k
k
k,
q
−
k
r
−
k
=
C
2
(
u
)
⋅
(
2
d
u
)
−
(
2
l
−
1
)
−
k
(
2
d
u
)
−
(
2
l
−
1
)
−
k
=
C
2
(
u
)
−
[
1
−
C
2
(
u
)
]
[
(
2
l
−
1
)
+
k
(
2
d
u
)
−
(
2
l
−
1
)
−
k
]
=
C
2
(
u
)
−
[
1
−
C
2
(
u
)
]
O
(
1
/
d
u
2
)
\frac{q-k}{r-k}=\frac{C_2(u)\cdot(_2^{d_u})-(_2^{l-1})-k}{(_2^{d_u})-(_2^{l-1})-k}=C_2(u)-[1-C_2(u)][\frac{(_2^{l-1})+k}{(_2^{d_u})-(_2^{l-1})-k}]=C_2(u)-[1-C_2(u)]O(1/d_u^2)
r−kq−k=(2du)−(2l−1)−kC2(u)⋅(2du)−(2l−1)−k=C2(u)−[1−C2(u)][(2du)−(2l−1)−k(2l−1)+k]=C2(u)−[1−C2(u)]O(1/du2)
当
C
2
(
u
)
→
1
C_2(u)\rightarrow 1
C2(u)→1且
d
u
→
∞
d_u\rightarrow \infty
du→∞时,上式趋于
[
C
2
(
u
)
]
l
−
1
[C_2(u)]^{l-1}
[C2(u)]l−1。
上式结果是基于随机图的结果,但是实际网络可能与此不同,如果实际计算的
C
l
(
u
)
≈
[
C
2
(
u
)
]
l
−
1
C_l(u)\approx[C_2(u)]^{l-1}
Cl(u)≈[C2(u)]l−1,其中
C
2
(
u
)
C_2(u)
C2(u)比较大,则类似于随机图,节点
u
u
u的邻居节点是密集但随机的,若
C
2
(
u
)
C_2(u)
C2(u)比较大,
C
l
(
u
)
>
[
C
2
(
u
l
−
1
)
]
C_l(u)>[C_2(u^{l-1})]
Cl(u)>[C2(ul−1)],则是密集且有结构的。
Higher-order clustering in networks摘要
最新推荐文章于 2023-01-05 20:48:40 发布