第一部分
networks in real world
反应互联网的复杂网络
节点:某一个ip
连边:ip之间的数据传输
反应脸书的社交网络
:北美,欧洲亮度高,中国因为被墙的关系非常暗
节点:某个用户
连边:用户之间的关注
反应美国民主党和共和党zen治博客的友情链接关系
:
发现有意思的部分是,民主党党内之间的联系紧密,只有少数部分的博客友情链接到其他政党的博客上去。
节点:某政客的博客
连边:该博客友情链接到其他博客的关系
反应学科论文的引用之间的关系
math引用cs,ee较多。math引用human,social science 的较少,比较符合客观事实。
连边:引用关系
节点:学科论文
2000左右网络科学非常火爆,类似于现在的sk-learn,slam。大量统计物理学家研究,因为需要计算机模拟仿真,数学的图论,所以跨多个学科
basic concepts
- network definition ;
- network representation;
- closeness centrality;
- 距离;
- 聚集系数;
network definition:
数学图论语言:vertices,edges,graph
网络语言:node link network
这样两套语言
网络科学:是要反应真实世界的关系的 ,比如1,2,3
对于123 建模之后 拓扑结构都是一样的。
图论:更加关注 拓扑结构
network representation:
a拓扑结构,人类理解更加直观,
b邻接矩阵,c邻接链表 是计算机理解的方式。
b 需要n^2空间来存放,可以考虑稀疏矩阵
degree:
公式1
:i号节点的度,i不变,j从小到大遍历一次。相当于矩阵的第i行求和。
网络总边数: 1/2 * 总的度数 = 1/2 * ∑每个节点的度数 (带入第一个公式)
度平均 <k>
:
ki ,i号节点的度数
∑ki :对每个节点度数求和
遍历每一个节点的度数 求和 / n节点数 = 2* 边数m / n个节点
某空手道俱乐部的 网络:
度分布如下 degree distribution:
closeness centrality度中心性
:
文艺复兴时期,几大家族关系的反应。
哪个家族 与其他家族都有关系? 美地奇?
度中心 closeness centrality
值越大,与其他节点之间的distent越小。
度中心的公式
: n节点数-1 / i节点与其他节点的距离之和
e(i,j)
,i到j节点的距离。
∑ e (i,j)
:i不变,j从小到大遍历。求和结果就是i到其他节点的距离。
所以i节点到其他节点的距离越小,colseness 越大。
分子都一样 15个节点-1
美的奇家族到其他家族的距离之和是25(分母较小)
betweeness centrality
:介数?? 接近中心性?
图里最短路径经过i节点的次数/ 总的最短路径的条数
比如betweeness centrality4 : 无论是8->2 ,7->3,6->2 等等都会经过4号节点,所以bc4值较高。
pagerank
谷歌的网页排序算法。
每个节点有个重要度,i节点的重要度
是ri
- : 初始化每个节点的重要度 r
- :把每个节点的重要性程度分出去,比如j节点有3个出度
就把r j /3
分给j的出度的节点。 - :重新计算每个节点的重要度。 比如
x节点的重要度rx
= x节点分得到的重要度之和。
y节点分出 : ry/2
a节点分出: ra/2
m节点分出: rm
y节点得到重要度之和: ry/2 + ra/2
a节点得到重要度之和:ry/2 + m
m节点得到重要度之和: ra/2
如何求解这个方程? 高斯消元肯定不能用,网络巨大。
定义这样一个矩阵。竖向看
比如y分出去2份 ,一份给y,一份给a
那么设置 Ayy = 1/2,Aya = 1/2,其他的元素设置为0 。
又比如m分出去一份,给a。
那么Ama = 1 ,其余的元素设置0
j元素的出度是 Dj
假如j出度连接i元素的话,那么矩阵M 中Mji = 1/Dj
对列求和每列值 = 1
有了这个M矩阵之后 如何求解上述的流动方程呢?
用 M矩阵 * [ Ry,Ra,Rm ] = [ Ry,Ra,Rm ]
初始化一组 [ Ry,Ra,Rm ],不停的修改R的值。
让两边相等之后 就找到 了目标的重要度的值
models
第一种 er random graph
:
G(n,p)
有n个节点,每对节点之间有边的概率是p
复习 二项分布
有一个事件A,每次随机时A事件发生的概率是p,每次随机时A事件不发生的概率是1-p,重复随机N次,A发生K次的概率是p(k)
p(k) = Cnk pk 1-pn-k
性质1
图中存在e条边的概率是:
符合二项分布
Emax
: n*(n-1)/2 图里面最多边的条数
p:一对节点之间存在边的概率
比如p(11)
=图里面存在11条边的概率是 = CEmax 11 *
p11 *
(1-p)Emax-11
性质3
度分布degree distrubution:
由于网络中每个节点的度不同,所以要分开考虑不同的度。
p(k)
: 代表 任意一个节点i,它的度是k的概率
p:代表每对节点有边的概率
p(k) = Cn-1k * pK * (1-p)n-1-k
p(5) = 任意一个节点,它的度是5的概率 = C总节点数-15 * (p连边概率)5 * (1-p ,没有连边的概率)总节点数-1-5
er随机网络的平均度
average degree: (n-1)*p
聚类系数
cluster coefficient: 反应 朋友和朋友之间 认识
a有bc两个朋友,b和c会认识吗?
聚类系数 就是反应这个的,越大,越有可能认识。
real world 的cluster coefficient 非常大。
er随机网络的 cluster coefficient 就是连边概率p (<<1的) 太小。
所以er随机网络不能反应真实世界.
做出改变使得模型更加符合real world (path 小,并且 cluster 大)
第一个regular 网络:
cluster:一个节点的朋友之间有连边的概率 大。符合
path:比较大,对立的两个节点经过大概10次才能到达 不符合
第三个er随机网络:
cluster:太小,观察得出 某个节点i的两个朋友节点,不太可能有连边 不符合real world
path:总得来说比较小。
第二个 ws小世界网络(对于regular的随机重连边)
cluster:跟regular一样非常大。 符合
path:重连的边可以显著的减少, 任意两个节点之间的最短路径。 符合
巴拉巴西他的学生写爬虫,爬取互联网,查看了 互联网的度分布。