复杂网络分析 05 无标度网络

05 无标度网络

  • 5.1幂律分布
  • 5.2幂律分布的数据拟合
  • 5.3无标度网络的性质
  • 5.4BA无标度网络模型
  • 5.5满足给定度分布的网络生成模型

5.1幂律分布

  • 二八定则:意大利经济学家Vilfredo Pareto(1848-1923)研究了个人收入的统计分布,发现少数人的收入要远大于大多数人的收入提出了著名的80/20法则,即20%的人口占据了80%的社会财富。
  1. 货币收入财富1公司规模分布2均满足幂律分布。
  2. 无标度网络
    网络的度分布为幂律分布的异类网络
    P ( k ) ∝ k P(k)∝k P(k)k − γ -\gamma γ
    l n P ( k ) ∝ − γ lnP(k)∝-\gamma lnP(k)γ l n k lnk lnk(线性关系)
  3. 实例
    WWW 节点:网页 连边:超链接
    因特网 节点:路由器 连边:光缆链接3
    生物系统4
    蛋白质交互网络5
    科学家合作网 节点:科学家 连边:合著关系67
    科学引文网(有向网) 节点:论文 连边:论文间的引用8
    在线社区 节点:在线用户 连边:电子邮件联系9
    瑞典性关系网 节点:人 连边:性关系10

5.2幂律分布的数据拟合

  • 数据分箱:所谓分箱就是对原始数据进行分组,然后对每一组内的数据进行平滑处理。常见的分箱的方式主要有等深分箱(每组数据一样多)、等宽分箱(每组区间长度一样)、用户自定义、最小熵(各分组内的数据具有最小熵)

    • 平滑的方式主要有均值平滑(用组内均值来代替组内每个元素)、中间值平滑(用组内中间值来代替组内每个元素)、边界平滑(用组内离得较近的边界值来代替组内元素)
    • 对数分箱对原数据进行分箱,第i个箱的宽度为 b i b^i bi, b>1。例如: b=2,则第一个箱的宽度为2,第二个箱的宽度为4,第三个箱的宽度为8,……(非线性分箱
      对于幂律分布,在做直线拟合时,采用对数分箱更能准确的估计幂指数。
  • 幂指数估计

    • 最小二乘法就是寻找最优参数 γ \gamma γ的估计值使得因变的观察值与估计值之间的离差平方和达到最小。
    • 参数拟合:极大似然估计11构造似然函数
      两者结果可能存在差异
  • 累积度分布

    • 累计度分布 P k P_k Pk表示在网络中随机选取一个节点的度不小于k的概率,即 P k = P_k= Pk= ∑ k ′ = k ∞ \sum_{k'=k}^{\infin} k=k P ( k ′ ) P(k') P(k)
    • 若网络中节点的度分布为幂律分布,即 P ( k ) = C k P(k)=Ck P(k)=Ck − γ -\gamma γ
    • 则累积度分布函数近似服从幂指数为 γ − 1 \gamma-1 γ1的幂律分布。
    • 因此,通过估计累积度分布的幂指数,进而得到度分布的幂指数。
      可以减少数据波动

5.3无标度网络的性质

  • 道路网络
    更服从泊松分布:大部分节点拥有相同数目的连边,没有大度节点
  • 航空网络
    更服从幂律分布:许多节点拥有较少的连边,少数节点拥有大量连边。(大度节点可被称为中枢节点)
  • 高度值节点出现的概率
    • 在WWW网络中,随机抽到一个度值为100的节点的概率为:
      大约 p 100 p_{100} p100 ≈ 4 × 1 0 − 4 ≈4\times10^{-4} 4×104,如果节点的度分布为幂率分布
    • 在相对应的随机网络中,节点的度分布为泊松分布,随机抽到一个度值为100的节点的概率为:
      大约 p 100 ≈ 1 0 − 94 p_{100}≈10^{-94} p1001094
  • K m a x K_{max} Kmax N N N的变化
    • K m a x K_{max} Kmax随网络规模的增加而增加:系统规模越大 它的最大度值就越大
    • γ > 2 \gamma>2 γ>2, K m a x K_{max} Kmax的增加慢于 N N N随着N的增加,最大的hub节点将拥有越来越少的连边
    • γ = 2 \gamma=2 γ=2, K m a x K_{max} Kmax~ N N N:最大核心节点的规模是 O ( N ) O(N) O(N)
    • γ < 2 \gamma<2 γ<2, K m a x K_{max} Kmax的增加快于 N N N随着N的增加,最大的hub节点将拥有越来越多的连边
  • 幂律分布的自相似结构
    自相似性就是局部与整体相似,局部中又有相似的局部。
    从整体来看,若节点的度分布为幂律分布,那么当取出一部分节点,观测它们的度分布,仍然是幂律分布。
  • 幂律分布的弥散

5.4BA无标度网络模型

  • 实际网络的两个重要特性
    节点数目的增长:实际网络在演化的过程中有新节点的加入,网络规模不断扩大。
    偏好连接:新节点更倾向于和连边多的节点进行连接。12
  • BA无标度网络模型
    • 增长:
      在每个时间步,我们向网络中添加一个带有m条连边的新节点,这些边连接到网络中已存在的节点上。
    • 偏好链接:一个新节点与一个已存在的节点i相连的概率 ∏ \prod i i i与节点i的度 k i k_i ki,之间满足以下关系:
      ∏ \prod i i i = k i ∑ j k j =\frac{k_i}{\sum_jk_j} =jkjki
      最终,BA模型生成了度分布为幂律分布的网络,且幂指数 γ \gamma γ=3。
  • 证明
    • 平均场理论13
    • 速率方程 主方程14
    • 模型A:只有增长 无偏好连接:指数分布
    • 模型B:只有偏好连接,无增长:幂律分布→正态分布

5.5满足给定度分布的网络生成模型

  • 两种网络生成模型
  1. 配置模型:该模型能够生成事先给定度序列的网络,生成的网络中可能含有自环和重边。
  2. 隐藏参数模型:该模型能够生成事先给定度分布的网络并且生成的网络中不含有自环和重边。
  • 配置模型15 16
    基于给定度序列(或者根据节点的度分布生成一个度序列) , 分配给每个节点一个度值ki,从每个节点引出ki个线头,总共有2M个线头(M为网络中的连边数)。
    随机地选择两个线头,把它们连在
    一起,形成一条连边;然后再在剩
    余的线头中随机选择一对线头形成一条连边;以此类推,直至匹配完所有线头。
    注:配置模型算法生成的网络可能
    含有自环或重边。
  • 隐藏参数模型17 18 19
    假设网络中有N个节点,每个节点被赋予一个隐藏参数 η \eta η,然后基于两个节点的隐藏参数判定是否产生连边。通过调整节点的隐藏参数生成满足给定度分布的网络。

参考文献


  1. Dragulescu A , Yakovenko V M . Exponential and power-law probability distributions of wealth and income in the United Kingdom and the United States[J]. Physica A Statistical Mechanics & Its Applications, 2001, 299(1):213-221. ↩︎

  2. Axtell, R. L . Zipf Distribution of U.S. Firm Sizes[J]. Science, 2001, 293(5536):1818-1820. ↩︎

  3. Faloutsos M , Faloutsos P , Faloutsos C . On power-law relationships of the Internet topology[J]. ACM SIGCOMM Computer Communication Review, 1999, 29(4):251-262. ↩︎

  4. H Jeong, B Tombor, R Albert,et al. The Large-Scale Organization of Metabolic Networks[J]. Nature, 2000, 407(6804):651-654. ↩︎

  5. H, Jeong,S P, Mason,A L, Barabási,Z N, Oltvai.Lethality and centrality in protein networks.[J].Nature,2001,411(6833):41-2. ↩︎

  6. Newman, M. E. J. Scientific collaboration networks.??I. Network construction and fundamental results[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 64(1):016131. ↩︎

  7. Barabási, A.L, Jeong, H, Néda, Z,et al. Evolution of the social network of scientific collaborations[J]. Physica A: Statistical Mechanics and its Applications, 2002, 311(3):590-614. ↩︎

  8. Redner, S. How popular is your paper? An empirical study of the citation distribution[J]. 4(2):131-134. ↩︎

  9. Ebel, Holger, Mielsch, Lutz-Ingo, Bornholdt, Stefan. Scale-free topology of e-mail networks[J]. Phys Rev E Stat Nonlin Soft Matter Phys, 66(3):035103. ↩︎

  10. Liljeros, Fredrik, Edling, Christofer R, Amaral, Luis A. Nunes,et al. The Web of Human Sexual Contacts[J]. Nature, 2001, 411(6840):907-8. ↩︎

  11. Clauset, A.,Shalizi, C. R., & Newman, M. E. (2009). Power-law distributions in empirical data. SIAM review, 51(4), 661-703. ↩︎

  12. AL Barabasi, Reka Albert. Albert, R.: Emergence of Scaling in Random Networks. Science 286, 509-512[J]. Science, 1999, 286(5439):509-512. ↩︎

  13. Barabási, Albert-László, Albert, Réka, Jeong, Hawoong. Mean-field theory for scale-free random networks[J]. Physica A: Statistical Mechanics and its Applications, 1999, 272(1-2),173-187. ↩︎

  14. Dorogovtsev S N , Mendes J F F , Samukhin A N . Structure of Growing Networks with Preferential Linking[J]. Physical Review Letters, 2000, 85(21):4633-4636. ↩︎

  15. Bollobás, Béla. A Probabilistic Proof of an Asymptotic Formula for the Number of Labelled Regular Graphs[J]. European Journal of Combinatorics, 1(4):311-316. ↩︎

  16. Molloy M , Reed B . A critical point for random graphs with a given degree sequence[J]. 1995, 6(2-3):161-180. ↩︎

  17. Caldarelli, G, Capocci, A, De Los Rios, P,et al. Scale-Free Networks from Varying Vertex Intrinsic Fitness[J]. Physical Review Letters, 89(25):258702. ↩︎

  18. S?derberg, Bo. General formalism for inhomogeneous random graphs[J]. Physical Review E, 2002, 66(6):066121. ↩︎

  19. Marián Boguñá, Pastor-Satorras R . Class of correlated random networks with hidden variables[J]. Physical Review E, 2003, 68(3 Pt 2):036112. ↩︎

相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页