1. 怎么衡量一个网络
有四个指标:
1.1 Degree Distribution
度的分布直方图:统计不同度的个数。将其归一化后,则反映了其分布
1.2 path
有向图和无向图之间距离的长度不同
有了节点之间的度量方式,我们需要了解一对节点之间的最大/最小距离。
1.3 cluster coefficient
聚类系数起源于社交网络。在这里老师举了一个栗子:如果A和B是朋友,B和C是朋友,那么A和C可能成为朋友。
所以,在图中
C
i
C_i
Ci代表第
i
i
i个节点的聚合系数。
k
i
k_i
ki代表第
i
i
i个节点的度,
e
i
e_i
ei则代表第
i
i
i个节点的邻居相互连接边的数量。
在下图中:
- 左图: k i = 4 , e i = 4 + 2 = 6 k_i=4, e_i=4+2=6 ki=4,ei=4+2=6
- 中间: k i = 4 , e i = 3 k_i=4, e_i=3 ki=4,ei=3
- 右边:
k
i
=
4
,
e
i
=
0
k_i=4, e_i=0
ki=4,ei=0
1.4 图组件的大小
计算图中各个部分的大小的方法,类似于数据结构中图的深度和广度遍历
2 一个具体的例子
2.1 Degree distribution
但是这种统计方式有一个缺陷,当某一个度的数量非常大时,归一化之后其他的度基本上为0了,所以采用对数轴进行绘制。
以msn交流为例:
但是这种统计方式有一个缺陷,当某一个度的数量非常大时,归一化之后其他的度基本上为0了,所以采用对数轴进行绘制。
以msn交流为例:
2.2 Clustering coefficient
2.3 Components size
不同组大小的个数统计。包含节点数最多的一个组是
2
∗
1
0
8
2*10^8
2∗108,其中有大约
1
0
6
10^6
106个孤立点。
3. 最简单的一种图模型——随机图模型
3.1 生成随机图
在这种模型中,两个节点之间的连接方式都满足独立同分布的概率 p p p。所以,即使给定了节点数量以及连接的概率,每次生成图的样子都是不一样的。
相当于拿着硬币抛,来决定两个节点之间是否相连。
另外,对于这样的图,有更一般的表示方法,
G
n
,
m
G_{n,m}
Gn,m中,
n
n
n表示节点数目,
m
m
m表示
m
m
m条边。
对于这样的图,我们如何采用上述提到的四个方法进行度量呢?
3.2 随机图
3.2.1 随机图的Degree Distribution
考虑这样的情况,从 n n n个节点中选中其中一个节点作为研究点,那么,至多有 n − 1 n-1 n−1个节点与之相连。在这 n − 1 n-1 n−1个节点中,找出 k k k个与之相连的组合为 ( n − 1 k ) \binom{n-1}{k} (kn−1),那么, k k k个节点都与之相连的概率为 p k p^k pk,剩下的 n − 1 − k n-1-k n−1−k个节点不与之相连的概率为 ( 1 − p ) n − 1 − k (1-p)^{n-1-k} (1−p)n−1−k。
故而 p ( k ) p(k) p(k)的意义为:在有 n n n个节点的情况下,有 k k k个节点与其中某一节点相连的概率。
通常情况下,二项分布的期望和方差分别为:
p
(
n
−
1
)
p(n-1)
p(n−1)和
p
(
1
−
p
)
(
n
−
1
)
p(1-p)(n-1)
p(1−p)(n−1)。
但是,当这个无限大的时候,会出现什么情况呢?
方差除以均值的意义为:
随着图size的增加(无限大),变异系数表现为趋近于0。这说明,随着节点数的增加,the degree distribution 会变得越来越窄。在这样的情况下,我们认为节点的度数接近于 k k k的值,也就是说,可以认为所有节点都拥有相同的度。
结论:随着节点数的增加,变异系数趋近于0,节点的度数可近似认为是k。
3.2.2 cluster coefficient
在随机图中,每一条边都符合独立同分布,故而,相连的 k k k个节点中,任意2个相连节点共有: ( k 2 ) \binom{k}{2} (2k)可能。所以,期望为 p ( k 2 ) p\binom{k}{2} p(2k),代入到clustering coefficient公式中为: E [ C ] = 2 E [ e i ] k i [ k i − 1 ] = p E[C]=\frac{2E[e_i]}{k_i[k_i-1]}=p E[C]=ki[ki−1]2E[ei]=p。
又因: k ˉ = p ( n − 1 ) \bar{k}=p(n-1) kˉ=p(n−1)
故: p = k ˉ n − 1 p=\frac{\bar{k}}{n-1} p=n−1kˉ
E [ C ] E[C] E[C]所代表的意义为:在一个图模型中,当度的期望保持不变时,随着图中节点数的增加,其对应边的数量也在增加,聚合系数的期望趋近于0.
3.2.3 path
在本节中,首先要定义一个东西:expension
α
\alpha
α。
定义:expension
α
\alpha
α是指,若图
G
G
G拥有
V
V
V个顶点和
E
E
E条边,且
S
S
S是集合
V
V
V中任意一个子集合,则原图模型中,连接到
S
S
S边的数量,
S
S
S个节点中边的数量和
V
V
V剩下节点边数量最小值之比,在这些比例中,选出一个最小的,称为expension。
通俗的说就是:我要从图中拿一些节点出来,需要剪断的边的数量。
换句话说,当我们从S为一个点的时候,min(|S|,|V \ S|)应该为1而不是n-1
- 第一张图中,expension为 1 / 5 1/5 1/5,选择5个节点时,只要断一条边就能够使其完全分离。
随着P的变化,图component的变化情况。
MSN网络与随机图的差别:
最后得到的结论:随机图是一个错误的模型,但是它能够为我们研究图提供一些思路。