05 无标度网络
- 5.1幂律分布
- 5.2幂律分布的数据拟合
- 5.3无标度网络的性质
- 5.4BA无标度网络模型
- 5.5满足给定度分布的网络生成模型
5.1幂律分布
- 二八定则:意大利经济学家Vilfredo Pareto(1848-1923)研究了个人收入的统计分布,发现少数人的收入要远大于大多数人的收入提出了著名的80/20法则,即20%的人口占据了80%的社会财富。
- 货币收入财富1公司规模分布2均满足幂律分布。
- 无标度网络
网络的度分布为幂律分布的异类网络
P ( k ) ∝ k P(k)∝k P(k)∝k − γ -\gamma −γ
l n P ( k ) ∝ − γ lnP(k)∝-\gamma lnP(k)∝−γ l n k lnk lnk(线性关系) - 实例
WWW 节点:网页 连边:超链接
因特网 节点:路由器 连边:光缆链接3
生物系统4
蛋白质交互网络5
科学家合作网 节点:科学家 连边:合著关系67
科学引文网(有向网) 节点:论文 连边:论文间的引用8
在线社区 节点:在线用户 连边:电子邮件联系9
瑞典性关系网 节点:人 连边:性关系10
5.2幂律分布的数据拟合
-
数据分箱:所谓分箱就是对原始数据进行分组,然后对每一组内的数据进行平滑处理。常见的分箱的方式主要有等深分箱(每组数据一样多)、等宽分箱(每组区间长度一样)、用户自定义、最小熵(各分组内的数据具有最小熵)
- 平滑的方式主要有均值平滑(用组内均值来代替组内每个元素)、中间值平滑(用组内中间值来代替组内每个元素)、边界平滑(用组内离得较近的边界值来代替组内元素)
- 对数分箱对原数据进行分箱,第i个箱的宽度为 b i b^i bi, b>1。例如: b=2,则第一个箱的宽度为2,第二个箱的宽度为4,第三个箱的宽度为8,……(非线性分箱)
对于幂律分布,在做直线拟合时,采用对数分箱更能准确的估计幂指数。
-
幂指数估计
- 最小二乘法就是寻找最优参数 γ \gamma γ的估计值使得因变的观察值与估计值之间的离差平方和达到最小。
- 参数拟合:极大似然估计11构造似然函数
两者结果可能存在差异
-
累积度分布
- 累计度分布 P k P_k Pk表示在网络中随机选取一个节点的度不小于k的概率,即 P k = P_k= Pk=