1 图的度量——cs224w

1. 怎么衡量一个网络

有四个指标:
在这里插入图片描述

1.1 Degree Distribution

度的分布直方图:统计不同度的个数。将其归一化后,则反映了其分布
在这里插入图片描述

1.2 path

在这里插入图片描述
有向图和无向图之间距离的长度不同
在这里插入图片描述
有了节点之间的度量方式,我们需要了解一对节点之间的最大/最小距离。

1.3 cluster coefficient

聚类系数起源于社交网络。在这里老师举了一个栗子:如果A和B是朋友,B和C是朋友,那么A和C可能成为朋友。
所以,在图中 C i C_i Ci代表第 i i i个节点的聚合系数。 k i k_i ki代表第 i i i个节点的度, e i e_i ei则代表第 i i i个节点的邻居相互连接边的数量。

在下图中:

  • 左图: k i = 4 , e i = 4 + 2 = 6 k_i=4, e_i=4+2=6 ki=4,ei=4+2=6
  • 中间: k i = 4 , e i = 3 k_i=4, e_i=3 ki=4,ei=3
  • 右边: k i = 4 , e i = 0 k_i=4, e_i=0 ki=4,ei=0
    在这里插入图片描述

1.4 图组件的大小

计算图中各个部分的大小的方法,类似于数据结构中图的深度和广度遍历
在这里插入图片描述

2 一个具体的例子

2.1 Degree distribution

但是这种统计方式有一个缺陷,当某一个度的数量非常大时,归一化之后其他的度基本上为0了,所以采用对数轴进行绘制。
以msn交流为例:
在这里插入图片描述
在这里插入图片描述
但是这种统计方式有一个缺陷,当某一个度的数量非常大时,归一化之后其他的度基本上为0了,所以采用对数轴进行绘制。
以msn交流为例:

2.2 Clustering coefficient

在这里插入图片描述

2.3 Components size

不同组大小的个数统计。包含节点数最多的一个组是 2 ∗ 1 0 8 2*10^8 2108,其中有大约 1 0 6 10^6 106个孤立点。
在这里插入图片描述

3. 最简单的一种图模型——随机图模型

3.1 生成随机图

在这种模型中,两个节点之间的连接方式都满足独立同分布的概率 p p p。所以,即使给定了节点数量以及连接的概率,每次生成图的样子都是不一样的。

相当于拿着硬币抛,来决定两个节点之间是否相连。

在这里插入图片描述
另外,对于这样的图,有更一般的表示方法, G n , m G_{n,m} Gn,m中, n n n表示节点数目, m m m表示 m m m条边。

对于这样的图,我们如何采用上述提到的四个方法进行度量呢?

3.2 随机图

3.2.1 随机图的Degree Distribution

考虑这样的情况,从 n n n个节点中选中其中一个节点作为研究点,那么,至多有 n − 1 n-1 n1个节点与之相连。在这 n − 1 n-1 n1个节点中,找出 k k k个与之相连的组合为 ( n − 1 k ) \binom{n-1}{k} (kn1),那么, k k k个节点都与之相连的概率为 p k p^k pk,剩下的 n − 1 − k n-1-k n1k个节点不与之相连的概率为 ( 1 − p ) n − 1 − k (1-p)^{n-1-k} (1p)n1k

故而 p ( k ) p(k) p(k)的意义为:在有 n n n个节点的情况下,有 k k k个节点与其中某一节点相连的概率。

通常情况下,二项分布的期望方差分别为: p ( n − 1 ) p(n-1) p(n1) p ( 1 − p ) ( n − 1 ) p(1-p)(n-1) p(1p)(n1)
在这里插入图片描述
但是,当这个无限大的时候,会出现什么情况呢?

方差除以均值的意义为:
在这里插入图片描述
随着图size的增加(无限大),变异系数表现为趋近于0。这说明,随着节点数的增加,the degree distribution 会变得越来越窄。在这样的情况下,我们认为节点的度数接近于 k k k的值,也就是说,可以认为所有节点都拥有相同的度

在这里插入图片描述

结论:随着节点数的增加,变异系数趋近于0,节点的度数可近似认为是k。

3.2.2 cluster coefficient

在随机图中,每一条边都符合独立同分布,故而,相连的 k k k个节点中,任意2个相连节点共有: ( k 2 ) \binom{k}{2} (2k)可能。所以,期望为 p ( k 2 ) p\binom{k}{2} p(2k),代入到clustering coefficient公式中为: E [ C ] = 2 E [ e i ] k i [ k i − 1 ] = p E[C]=\frac{2E[e_i]}{k_i[k_i-1]}=p E[C]=ki[ki1]2E[ei]=p

又因: k ˉ = p ( n − 1 ) \bar{k}=p(n-1) kˉ=p(n1)

故: p = k ˉ n − 1 p=\frac{\bar{k}}{n-1} p=n1kˉ

E [ C ] E[C] E[C]所代表的意义为:在一个图模型中,当度的期望保持不变时,随着图中节点数的增加,其对应边的数量也在增加,聚合系数的期望趋近于0.

在这里插入图片描述

3.2.3 path

在本节中,首先要定义一个东西:expension α \alpha α
定义:expension α \alpha α是指,若图 G G G拥有 V V V个顶点和 E E E条边,且 S S S是集合 V V V中任意一个子集合,则原图模型中,连接到 S S S边的数量, S S S个节点中边的数量和 V V V剩下节点边数量最小值之比,在这些比例中,选出一个最小的,称为expension

通俗的说就是:我要从图中拿一些节点出来,需要剪断的边的数量。

在这里插入图片描述
换句话说,当我们从S为一个点的时候,min(|S|,|V \ S|)应该为1而不是n-1
在这里插入图片描述

  • 第一张图中,expension为 1 / 5 1/5 1/5,选择5个节点时,只要断一条边就能够使其完全分离。

在这里插入图片描述

随着P的变化,图component的变化情况。
在这里插入图片描述
MSN网络与随机图的差别:
在这里插入图片描述
最后得到的结论:随机图是一个错误的模型,但是它能够为我们研究图提供一些思路。
在这里插入图片描述

参考文献

课程链接

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值