文章目录
复杂网络
复杂网络基本概念
平均路径长度
两个点 i i i和 j j j之间的距离 d i j d_{ij} dij定义为连接这两个节点的最短路径上的边数。
网络的平均路径长度
L
L
L定义为任意两个节点之间的距离的平均值,即:
L
=
1
1
2
N
(
N
+
1
)
∑
i
≥
j
d
i
j
L=\frac{1}{\frac{1}{2}N(N+1)}\sum_{i\ge j}{d_{ij}}
L=21N(N+1)1i≥j∑dij
其中,
N
N
N为网络节点数。
一个含有 N N N个节点和 M M M条边的网络的平均路径长度可以用时间量级为 O ( M N ) O(MN) O(MN)的广度优先搜索算法来确定。
网络的平均路径长度也称为网络的特征路径长度。
聚类系数
在你的朋友关系网络中,你的两个朋友很可能彼此也是朋友,这种属性称之为网络的聚类特性。
在网络中的节点
i
i
i有
k
i
k_{i}
ki条边和其他节点连接,即有
k
i
k_{i}
ki个邻居节点。在这
k
i
k_{i}
ki个邻居节点之间最多可能有
k
i
(
k
i
−
1
)
/
2
k_{i}(k_{i}-1)/2
ki(ki−1)/2条边,而这
k
i
k_{i}
ki个节点之间实际存在的边数
E
i
E_{i}
Ei和总的可能的边数
k
i
(
k
i
−
1
)
/
2
k_{i}(k_{i}-1)/2
ki(ki−1)/2之比就定义为节点
i
i
i的聚类系数
C
i
C_{i}
Ci,即:
C
i
=
2
E
i
k
i
(
k
i
−
1
)
C_{i}=\frac{2E_{i}}{k_{i}(k_{i}-1)}
Ci=ki(ki−1)2Ei
简单描述即是:
C
i
=
与
点
i
相
连
的
三
角
形
的
数
量
与
点
i
相
连
的
三
元
组
的
数
量
C_{i}=\frac{与点i相连的三角形的数量}{与点i相连的三元组的数量}
Ci=与点i相连的三元组的数量与点i相连的三角形的数量
三元组包含三角形,三元组两种形式为:
整个网络的聚类系数 C C C就是所有结点i的聚类系数 C i C_{i} Ci的平均值。
度与度分布
度是单独节点的属性中简单而又重要的概念,分为出度和入度。直观上,一个节点的度越大,那么这个节点在某种意义下越重要。网络中的所有节点 i i i的度 k i k_{i} ki的平均值成为网络的(节点)平均度,记为 ⟨ k ⟩ \langle k \rangle ⟨k⟩,网络中节点的度的分布情况用分布函数 P ( k ) P(k) P(k)来描述。 P ( k ) P(k) P(k)表示一个随机选定的节点的度是 k k k的概率。
- 规则图为Delta分布
- 随机网络和小世界网络为近似Poisson分布
- 指数分布(暂未知是哪种网络!)
- 无标度分布,即幂律分布
无标度分布即是分布函数
f
(
x
)
f(x)
f(x)满足无标度条件:
f
(
a
x
)
=
b
f
(
x
)
f(ax)=bf(x)
f(ax)=bf(x)
当满足这个条件是必定有:(这里假设
f
(
1
)
f
′
(
1
)
≠
0
f(1)f'(1)\neq 0
f(1)f′(1)̸=0 )
f
(
x
)
=
f
(
1
)
x
−
r
,
r
=
−
f
(
1
)
f
′
(
1
)
f(x) = f(1)x^{-r}, r = -\frac{f(1)}{f'(1)}
f(x)=f(1)x−r,r=−f′(1)f(1)
证明见《复杂网络理论及其应用》中P12。
幂指数一般为 2 ≤ r ≤ 3 2\le r\le 3 2≤r≤3,绝大多数节点的度相对很低,只有少量节点的度相对很高,因此这类网络为非均匀网络,那些度相对很高的节点成为网络的集线器(hubs)。
网络拓扑基本模型及其性质
规则网络
全局耦合网络
构成:任意两个点之间都直接相连接,如下图a所示
平均路径长度:1
最大聚类系数:1
最近邻耦合网络
构成:每个节点只和它周围的邻居节点相连,一般具有周期边界条件的最近邻耦合网络包含N个围成一个环的点,如下图b所示,每个节点与它最近的4个节点相连
K:最近邻的个数,图b中为4
N:节点的数目
聚类系数为:
C
n
c
=
3
(
K
−
2
)
4
(
K
−
1
)
≈
3
4
C_{nc}=\frac{3(K-2)}{4(K-1)}\approx \frac{3}{4}
Cnc=4(K−1)3(K−2)≈43
平均路径长度为:
L
n
c
≈
N
2
K
→
∞
(
N
→
∞
)
L_{nc} \approx \frac{N}{2K} \rightarrow \infty \quad \quad (N \rightarrow \infty )
Lnc≈2KN→∞(N→∞)
星型耦合网络
构成:一个点为中心点,其他点与这个中心点直接连接,如下图c所示
聚类系数为:
C
s
t
a
r
=
N
−
1
N
→
1
(
N
→
∞
)
C_{star}=\frac{N-1}{N} \rightarrow 1 \quad \quad (N \rightarrow \infty )
Cstar=NN−1→1(N→∞)
平均路径长度为:
L
s
t
a
r
=
2
−
2
(
N
−
1
)
N
(
N
−
1
)
→
2
(
N
→
∞
)
L_{star}=2- \frac{2(N-1)}{N(N-1)} \rightarrow 2 \quad \quad (N \rightarrow \infty )
Lstar=2−N(N−1)2(N−1)→2(N→∞)
总体而言,这三种规则网络在很理想的情况下进行建模,很大程度上无法反映真实网络世界情况,是复杂网络研究中最基本的模型,不过有必要对他们的三要素进行理解与学习。
在人工构建的网络中,P2P为完全耦合网络,C/S为星型网络模型,路网在一定程度上可以认为是最近邻耦合模型(这个是自己想的)。
随机图(ER随机图)
构成:假设有大量的纽扣( N ≫ 1 N \gg 1 N≫1)散落在地上,并以相同的概率 p p p给每对纽扣系上一根线,这样便可以得到一个有 N N N个点,约 p N ( N − 1 ) / 2 pN(N-1)/2 pN(N−1)/2条边的ER随机图实例。
性质存在的定义:如果当 N → ∞ N \rightarrow \infty N→∞时产生了一个具有性质Q的ER随机图的概率为1,那么就称几乎每一个ER随即图都具有性质Q。
ER随即图的许多性质都是突然涌现的。比如当概率 p p p大于某个临界值 p c ∝ ( l n N ) / N p_{c} \propto (lnN)/N pc∝(lnN)/N,那么几乎每一个图都是连通的。
平均度: ⟨ k ⟩ = p ( N − 1 ) ≈ p N \langle k \rangle=p(N-1) \approx pN ⟨k⟩=p(N−1)≈pN
平均路径长度: L E R ∝ l n N / l n ⟨ k ⟩ L_{ER} \propto lnN/ln\langle k \rangle LER∝lnN/ln⟨k⟩。在ER图中随机选择一个点,网络中大概有 ⟨ k ⟩ L E R \langle k \rangle^{L_{ER}} ⟨k⟩LER个其他的点与该点之间的距离等于或者非常接近于 L E R L_{ER} LER,因此 N ∝ ⟨ k ⟩ L E R N\propto \langle k \rangle^{L_{ER}} N∝⟨k⟩LER,变换一下形式即得原式。这种平均路径长度为网络规模的对数增长函数的特性就是典型的小世界特征。
聚类系数: C = p = ⟨ k ⟩ / N ≪ 1 C=p=\langle k \rangle/N\ll1 C=p=⟨k⟩/N≪1,这意味着大规模的稀疏ER随机图没有聚类特征。
ER图又称为“Poission随机图”,固定ER随机图的平均度
⟨
k
⟩
\langle k \rangle
⟨k⟩不变,则对于充分大的N,由于每条边的出现与否都是独立的,ER随机图的度分布可以用Poission分布来表示,即:
P
(
k
)
=
C
N
k
p
k
(
1
−
p
)
N
−
k
≈
⟨
k
⟩
k
e
−
⟨
k
⟩
k
!
P(k)=C_{N}^{k}p^{k}(1-p)^{N-k} \approx \frac {{\lang k \rang}^k e^{- \lang k \rang}}{k!}
P(k)=CNkpk(1−p)N−k≈k!⟨k⟩ke−⟨k⟩
小世界网络模型
考虑到规则的最近邻耦合网络具有高聚类特性,但是平均路径很大,不是小世界网络,而ER随机图有较小的平均路径长度,但是不具备高聚类特性。将这两者的性质结合,即可得小世界网络模型。
WS小世界模型
构造算法:从最近邻耦合网络这个规则网络开始,将它的边以概率 p p p进行随机化重连,一个节点固定,另一个节点随机选择。并保证任意两个不同节点之间至多一条边,节点不能有边与自身相连。 p = 0 p=0 p=0到 p = 1 p=1 p=1的过程即是从完全规则网络到完全随机网络的过程。
聚类系数:
C
(
p
)
=
3
(
K
−
2
)
4
(
K
−
1
)
(
1
−
p
)
3
C(p)=\frac{3(K-2)}{4(K-1)}(1-p)^3
C(p)=4(K−1)3(K−2)(1−p)3
平均路径长度(目前暂无精确解析表达式,利用重正化群方法可以得到如下公式):
L
(
p
)
=
2
N
K
f
(
N
K
p
/
2
)
L(p)=\frac{2N}{K}f(NKp/2)
L(p)=K2Nf(NKp/2)
其中
f
(
u
)
f(u)
f(u)为一普适标度函数,满足:
f
(
u
)
=
{
c
o
n
s
t
a
n
t
,
u
≪
1
(
l
n
u
)
/
u
,
u
≫
1
f(u)= \left \{ \begin{aligned} constant,u \ll 1 \\ (lnu)/u,u \gg 1 \end{aligned} \right.
f(u)={constant,u≪1(lnu)/u,u≫1
后来,基于均场方法有如下表达式:
f
(
x
)
≈
1
2
x
2
+
2
x
a
r
c
t
a
n
h
x
x
+
2
f(x) \approx \frac{1}{2\sqrt{x^2+2x}}arctanh\sqrt{\frac{x}{x+2}}
f(x)≈2x2+2x1arctanhx+2x
度分布:由于每个节点有
K
K
K个邻居节点,在随机化重连的过程中,对于每个节点而言,有
K
/
2
K/2
K/2条边是不会离开该节点的,因此,当
k
<
K
/
2
k<K/2
k<K/2时,
P
(
k
)
=
0
P(k)=0
P(k)=0,当
k
≥
K
/
2
k\geq K/2
k≥K/2时,分布如下:
KaTeX parse error: No such environment: equation* at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲*̲}̲ P(k)= \sum_{n=…
WS小世界模型构造方式中的随机化过程可能破坏网络的连通性,于是:
NW小世界模型
构造算法:从最近邻耦合网络这个规则网络开始,将它的边以概率 p p p进行随机化加边。并保证任意两个不同节点之间至多一条边,节点不能有边与自身相连。 p = 0 p=0 p=0对应原始最近邻耦合网络,而 p = 1 p=1 p=1对应全局耦合网络。
聚类系数:
C
(
p
)
=
3
(
K
−
2
)
4
(
K
−
1
)
+
4
K
p
(
p
+
2
)
C(p)=\frac{3(K-2)}{4(K-1)+4Kp(p+2)}
C(p)=4(K−1)+4Kp(p+2)3(K−2)
平均路径长度(同WS小世界模型):
L
(
p
)
=
2
N
K
f
(
N
K
p
/
2
)
L(p)=\frac{2N}{K}f(NKp/2)
L(p)=K2Nf(NKp/2)
其中
f
(
u
)
f(u)
f(u)为一普适标度函数,满足:
f
(
u
)
=
{
c
o
n
s
t
a
n
t
,
u
≪
1
(
l
n
u
)
/
u
,
u
≫
1
f(u)= \left \{ \begin{aligned} constant,u \ll 1 \\ (lnu)/u,u \gg 1 \end{aligned} \right.
f(u)={constant,u≪1(lnu)/u,u≫1
后来,基于均场方法有如下表达式:
f
(
x
)
≈
1
2
x
2
+
2
x
a
r
c
t
a
n
h
x
x
+
2
f(x) \approx \frac{1}{2\sqrt{x^2+2x}}arctanh\sqrt{\frac{x}{x+2}}
f(x)≈2x2+2x1arctanhx+2x
度分布:由于每个节点至少有
K
K
K个邻居节点,因此,当
k
<
K
k<K
k<K时,
P
(
k
)
=
0
P(k)=0
P(k)=0,当
k
≥
K
k\geq K
k≥K时,分布如下:
KaTeX parse error: No such environment: equation* at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲*̲}̲ P(k)= C_{N}^{k…
当
p
p
p足够小且
N
N
N足够大时,NW小世界网络本质上等同于WS小世界网络。
小世界网络的小波分析
见《复杂网络理论及其应用》中P23。
大概就是利用小波变化,在一个粗化的状态下,观察网络的统计特性,进而研究在粗化状态下, L L 1 LL_{1} LL1低频区间所展现出来的网络特性,即网络的平均路径长度以及聚类系数。
无标度网络模型(重点)
基本性质
ER随机图和WS小世界模型的一个共同特征是度分布近似为Poisson分布,这样度基本上存在于平均度 ⟨ k ⟩ \langle k \rangle ⟨k⟩峰值附近,当 k ≫ ⟨ k ⟩ k\gg\langle k \rangle k≫⟨k⟩时,度为 k k k的节点几乎不存在。而许多现实生活中的网络,如Internet、WWW、新陈代谢网络等的连接度分布函数具有幂律形式,由于这类网络的节点的连接度没有明显的特征长度(比如平均度 ⟨ k ⟩ \langle k \rangle ⟨k⟩),因此,称之为无标度网络。
最初是的无标度网络模型:BA无标度网络,通过考虑现实情况下,网络的增长特性(每天都有新的节点和边加入)和优先连接特性(新的节点更加倾向于与那些高度节点相连接,“富者更富”“马太效应”)。该部分为我目前的研究重点。
**BA无标度网络构造算法:**从一个具有
m
0
m_{0}
m0个节点的网络开始,每次加入一个节点并连接到
m
m
m个已存在的节点上,当然,必须满足
m
≤
m
0
m \leq m_{0}
m≤m0。在连接时,一个新的节点与一个已经存在的节点
i
i
i之间的连接概率
Π
i
\Pi_{i}
Πi与节点
i
i
i的度
k
i
k_{i}
ki和所有其他节点的度关系如下:
Π
i
=
k
i
∑
j
k
j
\Pi_{i}=\frac{k_{i}}{\sum\limits_{j}{k_{j}}}
Πi=j∑kjki
平均路径长度:
L
∝
l
o
g
N
l
o
g
l
o
g
N
L \propto \frac{logN}{loglogN}
L∝loglogNlogN
L
L
L与
l
o
g
N
logN
logN一个量级,表明该网络具有小世界特性
聚类系数:
C
=
m
2
(
m
+
1
)
2
4
(
m
−
1
)
[
l
n
m
+
1
m
−
1
m
+
1
]
[
l
n
(
t
)
]
2
t
C=\frac{m^2(m+1)^2}{4(m-1)}\big[ln\frac{m+1}{m}-\frac{1}{m+1}\big]\frac{[ln(t)]^2}{t}
C=4(m−1)m2(m+1)2[lnmm+1−m+11]t[ln(t)]2
m
m
m:每次一个新的节点与
m
m
m个已经存在的节点连接
t t t:经过 t t t步,即总共加入 t t t个节点,最后共有 N = t + m 0 N=t+m_{0} N=t+m0个节点,大概 m t mt mt条边
与ER随即图类似,当网络规模充分大时,BA无标度网络不具有明显的聚类特征
度分布:
对于无标度网络的度分布研究主要有三种方法:连续场理论,主方程法,速率方程法。
主方程法的结果:
定义
p
(
k
,
t
i
,
t
)
p(k,t_{i},t)
p(k,ti,t)为在
t
i
t_{i}
ti时刻记录的节点
i
i
i在
t
t
t时刻的度恰好是
k
k
k的概率。在BA模型中,当一个新节点加入到系统中来时,节点
i
i
i的度增加
1
1
1的概率为
m
Π
i
=
k
2
t
m\Pi_{i}=\frac{k}{2t}
mΠi=2tk (根据前文,可以推导出来),否则该节点的度保持不变。那么有:
<
E
m
p
t
y
M
a
t
h
B
l
o
c
k
>
<Empty \space Math \space Block>
<Empty Math Block>
p ( k , t i , t + 1 ) = k − 1 2 t p ( k − 1 , t i , t ) + ( 1 − k 2 t ) p ( k , t i , t ) p(k,t_{i},t+1)=\frac{k-1}{2t}p(k-1,t_{i},t)+(1-\frac{k}{2t})p(k,t_{i},t) p(k,ti,t+1)=2tk−1p(k−1,ti,t)+(1−2tk)p(k,ti,t)
网络的度分布为:
P
(
k
)
=
lim
t
→
+
∞
(
1
t
∑
t
i
p
(
k
,
t
i
,
t
)
)
P(k)=\lim_{t\to +\infty}\big(\frac{1}{t}\sum\limits_{t_{i}}p(k,t_{i},t)\big)
P(k)=t→+∞lim(t1ti∑p(k,ti,t))
它满足如下递推方程式:
P
(
k
)
=
{
k
−
1
k
+
2
P
(
k
−
1
)
,
k
≥
m
+
1
2
m
+
2
,
k
=
m
P(k)= \left \{ \begin{aligned} \frac{k-1}{k+2}P(k-1),k \geq m+1 \\ \frac{2}{m+2} \quad \quad ,k =m \qquad \end{aligned} \right.
P(k)=⎩⎪⎪⎨⎪⎪⎧k+2k−1P(k−1),k≥m+1m+22,k=m
从而可得BA网络的度分布函数为:
P
(
k
)
=
2
m
(
m
+
1
)
k
(
k
+
1
)
(
k
+
2
)
∝
2
m
2
k
−
3
P(k)=\frac{2m(m+1)}{k(k+1)(k+2)} \propto 2m^2k^{-3}
P(k)=k(k+1)(k+2)2m(m+1)∝2m2k−3
m
m
m:每次一个新的节点与
m
m
m个已经存在的节点连接
k k k:随机取一个节点,度为 k k k的概率 P ( k ) P(k) P(k)
表明:BA无标度网络的度分布函数可以由幂指数为3的幂律函数近似描述
缺陷:BA无标度网络的幂指数固定为3
鲁棒性与脆弱性
见《复杂网络理论及其应用》中P29。
无标度网络对随机故障策略,即随机移除一些点,有很高的鲁棒性;对蓄意攻击策略,即移除网络中部分度最高的节点,表现得非常脆弱。其中表现情况以整个图的连通性为标准。
鲁棒但又脆弱是复杂系统的最重要和最基本的特征之一。
Broder等人研究了更大规模WWW子网络的鲁棒性。他们发现只有删除所有度大于5的节点才能完全破坏WWW的连通性。这其实是因为WWW具有高度倾斜的度分布,度数大于5的节点在整个网络中所占的比例还是很小的。(这个发现以及相关的具体数值的研究,可能对我的研究有帮助)
适应度模型
BA模型只能生成度分布的幂律指数固定为3的无标度网络,而各种实际复杂网络的幂律指数则不甚相同,且大多属于2到3的范围内。
实际网络常常还具有一些非幂律特征,如指数截断,小变量饱和等。
在BA无标度网络的增长过程中,节点的度也在发生变化并且满足如下幂律关系(流式处理中,应该很有用):
k
i
(
t
)
=
(
t
t
i
)
1
2
k_{i}(t)=\big(\frac{t}{t_{i}}\big)^{\frac{1}{2}}
ki(t)=(tit)21
k
i
(
t
)
k_{i}(t)
ki(t):为第
i
i
i个节点在时刻
t
t
t的度
t i t_{i} ti:为第 i i i个节点加入到网络中的时刻
则可以有一个很直观的认识:就是越老的节点具有越高的度,在完全随机的情况下,这一点基本成立。
适应度模型构造算法:在原有的BA模型上,为每个节点增加了一个适应度权值
从一个具有
m
0
m_{0}
m0个节点的网络开始,每次加入一个节点并连接到
m
m
m个已存在的节点上,当然,必须满足
m
≤
m
0
m \leq m_{0}
m≤m0,每一个节点的适应度按照概率分布$ \rho ( \eta )
选
取
。
在
连
接
时
,
一
个
新
的
节
点
与
一
个
已
经
存
在
的
节
点
选取。在连接时,一个新的节点与一个已经存在的节点
选取。在连接时,一个新的节点与一个已经存在的节点i
之
间
的
连
接
概
率
之间的连接概率
之间的连接概率\Pi_{i}
与
节
点
与节点
与节点i
的
度
的度
的度k_{i}
以
及
适
应
度
以及适应度
以及适应度\eta_{i}$和所有其他节点的度关系如下:
Π
i
=
η
i
k
i
∑
j
η
j
k
j
\Pi_{i}=\frac{\eta_{i}k_{i}}{\sum\limits_{j}{\eta_{j}k_{j}}}
Πi=j∑ηjkjηiki