网络科学导论3

二氧化谈

已于 2022-10-02 22:11:42 修改

阅读量186

点赞数 2

分类专栏：复杂网络控制复杂系统文章标签：网络

于 2022-10-02 22:09:34 首次发布

本文链接：https://blog.csdn.net/klsks/article/details/127146993

版权

复杂网络同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

复杂系统

3 篇文章 0 订阅

订阅专栏

控制

1 篇文章 0 订阅

订阅专栏

第三章网络基本拓扑性质

本章重点

实际网络的连通性：无向网络中的巨片、有向网络的蝴蝶结结构
网络小世界性质刻画：平均路径长度与聚类系数
网络均匀性程度刻画：泊松度分布和幂律度分布

3.1 引言

在图论中
- 割点：去除某个定点使得一个图由连通变为不连通；
- 桥：去除某条边使得一个图由连通变为不连通。
在网络科学中（大规模）
- 要去除多少节点或者边才能对网络的某个性质产生实质性的影响？
- 不同的去除策略是否会产生不同的结果？
- 对网络的某种性质如何提高其对节点和边的去除鲁棒性等。

3.2 复杂网络的连通性

3.2.1 无向网络中的巨片

巨片(giant component)
许多实际的大规模复杂网络都是不连通的，但是往往含有一个特别大的连通片，其包含了整个网络相当比例的节点，这便是巨片。

3.2.2 有向网络的蝴蝶结结构

实际网络既不是强连通也非弱连通，但往往包含了一个很大的弱连通片，称为弱连通巨片(GWCC),往往具有四个部分的蝴蝶结结构：
- 强连通核（SCC）：也称强连通巨片，位于网络中心，任意两个节点都是强连通的，存在从任意一个节点到另一个节点的有向路径；
- 入部（IN）：可到达SCC，但不能从SCC到达；
- 出部（OUT）：从SCC到达，但不能到达SCC；
- 卷须（Tendrils）：既不能从SCC到达，也不能到达SCC；
- 管子（Tube）：由卷须节点串起来的有向路径。

3.3 节点的度与网络稀疏性

3.3.1 度与平均度

在无向网络中

节点 $i$ 的度 $k_i$ ：与节点直接相连的边的数目
平均度 $\lang k\rang$ ：所有节点的度的平均值
给定网络G的邻接矩阵 $(a_{ij})_{N\times N}$ ,有
$k_i = \sum_{j=1}^N a_{ij} = \sum_{j=1}^N a_{ji},\tag{3.1}$
$\lang k\rang = \frac{1}{N}\sum_{i=1}^N k_i = \frac{1}{N}\sum_{i,j=1}^N a_{ij},\tag{3.2}$
网络节点的度与网络边数M之间的关系
$N\lang k\rang = \sum_{i=1}^N k_i = \sum_{i,j=1}^N a_{ij},\tag{3.3}$
从而
$\frac{1}{2}N\lang k\rang = \frac{1}{2}\sum_{i=1}^N k_i = \frac{1}{2}\sum_{i,j=1}^N a_{ij},\tag{3.4}$
$\lang k\rang = \frac{2M}{N},\tag{3.5}$

3.3.2 入度与出度

入度( $k_i^{in}$ )：从其他节点指向节点 $i$ 的边的数目
出度( $k_i^{out}$ )：从节点 $i$ 指向其他节点的边的数目
用邻接矩阵元素表示为：
$k_i^{out} = \sum_{j=1}^N a_{ij},\qquad k_i^{in} = \sum_{j=1}^N a_{ji},\tag{3.6}$
在有向网络中：网络平均出度与平均入度相同，即为：
$\lang k^{out}\rang = \lang k^{in}\rang = \frac{1}{N}\sum_{i,j=1}^N a_{ij} = \frac{M}{N}\tag{3.7}$
在加权网络中，还可以加上权值矩阵 $W = w_{ij}$ ，定义节点 $i$ 的强度为 $s_i$ :
- 无向加权：
  $s_i = \sum_{j=1}^N w_{ij},\tag{3.8}$
- 有向加权：
  $s_i^{out} = \sum_{j=1}^N w_{ij},\qquad s_i^{in} = \sum_{j=1}^N w_{ij}\tag{3.9}$

3.3.3 网络稀疏性与稠密化

网络的密度 $\rho$ ：可能存在的边数目与最大可能边数的比值
- 无向网络：
  $\rho = \frac{M}{\frac{1}{2}N(N-1)},\tag{3.10a}$
- 有向网络：
  $\rho = \frac{M}{N(N-1)},\tag{3.10b}$
平均度 $\lang k\rang$ 是一个更为合理的刻画网络稀疏性的指标：
$\lang k\rang = \frac{2M}{N} = \rho(N-1) \approx \rho N,\tag{3.11}$
时刻 $t$ 网络中的节点数为 $N (t)$ ,边数为 $M (t)$ ，实际网络的演化服从超线性关系，也称为稠密化幂律：
$M(t)\sim N^\alpha(t),1<\alpha<2.\tag{3.12}$
- 实际网络会随着时间变得越来越稠密
- 与全耦合网络相比，仍属于稀疏网络
对（3.12）两边取对数：
$\ln M(t) \approx \alpha(\ln N(t))+C,1<\alpha<2.\tag{3.13}$
很容易得出，可以创建一个双对数坐标系来描述上述这一线性关系，斜率显然为 $\alpha \in (1,2)$ 。

3.4 平均路径长度与直径

3.4.1 无权无向网络情形

平均路径长度
- 最短路径也称测地线路径：边数最少的路径。定义节点 $i$ 到 $j$ 最短路径上边的数目为 $d_{ij}$ ，称其为测地距离或者跳跃距离。
- 最短路径的求法：广度优先搜索算法
- 平均路径长度 $L$ ：任意两个节点之间距离的平均值，也称为特征路径长度或平均距离。即为
  $\frac{1}{\frac{1}{2}N(N-1)}\sum_{i\geq j}d_{ij},\tag{3.14}$
  式（3.14）存在一个问题，当存在不连通节点时， $d_{ij} = \infty$ ，这就导致 $L$ 也为无穷大，造成发散问题，于是在这里提出简谐平均，
  即为：
  $\frac{1}{GE},\qquad GE = \frac{1}{\frac{1}{2}N(N-1)}\sum_{i\geq j}\frac{1}{d_{ij}},\tag{3.15}$
  很显然，当节点对之间无路径时，对应的距离的倒数为0，这也就解决了上述的发散问题。 $GE$ 称为全局效率。
网络直径（Diameter）
网络中任意两个节点之间的（有限距离）最大距离称为网络的直径，记为 $D$ ：
$\max_{i,j}d_{ij},\tag{3.16}$
一般的，如果整数 $D$ 满足：
$g(D-1)<0.9,\qquad g(D)\geq0.9，\tag{3.17}$
(其中 $g (d)$ 为网络中距离不超过 $d$ 的节点对数量占总节点对数量的比例)，那么就成 $D$ 为网络的有效直径。利用插值推广到非整数为：
$g(d)+(g(d+1)-g(d))(r-d),(d\leq r<d+1).\tag{3.18}$
许多实际网络的直径与有效直径都呈现出越来越小的趋势，称为直径收缩现象。

3.4.2 加权有向网络情形

最短路径的求法：迪杰斯特拉算法（Dijkstra算法）
设G=(V,E)是一个带权有向图，把图中顶点集合V分成两组，第一组为已求出最短路径的顶点集合（用S表示，初始时S中只有一个源点，以后每求得一条最短路径, 就将加入到集合S中，直到全部顶点都加入到S中，算法就结束了），第二组为其余未确定最短路径的顶点集合（用U表示），按最短路径长度的递增次序依次把第二组的顶点加入S中。在加入的过程中，总保持从源点v到S中各顶点的最短路径长度不大于从源点v到U中任何顶点的最短路径长度。此外，每个顶点对应一个距离，S中的顶点的距离就是从v到此顶点的最短路径长度，U中的顶点的距离，是从v到此顶点只包括S中的顶点为中间顶点的当前最短路径长度。

3.5 聚类系数

3.5.1 无权无向网络情形

网络中度为 $k_i$ 的节点 $i$ ：如果这 $k_i$ 个邻居节点两两互为邻居，则存在 $\frac{1}{2}k_i(k_i-1)$ 条边。又在实际网络中，设节点 $i$ 的 $k_i$ 个邻居节点之间实际存在的边数为 $E_i$ ，则节点 $i$ 的聚类系数 $C_i$ 定义为：
$C_i = \frac{E_i}{C_{k_i}^2} = \frac{2E_i}{k_i(k_i-1)},\tag{3.19}$
等价定义：
$C_i=\frac{连接到顶点i的三角形个数}{连接到顶点i的三元组的个数},\tag{3.20}$
邻接矩阵 $(a_{ij})_{N\times N}$ 求解聚类系数 $C_i$
- 包含节点 $i$ 的三角形个数
  $E_i = \frac{1}{2}\sum_{j,k}a_{ij}a_{jk}a_{ki} = \sum_{k>j}a_{ij}a_{jk}a_{ki}.\tag{3.21}$
所以聚类系数 $C_i$ 可以计算为：
$C_i = \frac{2E_i}{k_i(k_i-1)} = \frac{1}{k_i(k_i-1)}\sum_{j,k=1}^Na_{ij}a_{jk}a_{ki},\tag{3.22}$
或者：
$C_i=\frac{连接到顶点i的三角形个数}{连接到顶点i的三元组的个数} = \frac{\sum_{j\neq i,k\neq j,k\neq i}a_{ij}a_{jk}a_{ki}}{\sum_{j\neq i,k\neq i}a_{ij}a_{ki}},\tag{3.23}$
整个网络的聚类系数 $C$ 定义为网络中所有节点聚类系数的平均值
$\frac{1}{N}\sum_{i=1}^N C_i.\tag{3.24}$
显然有 $0\leq C\leq 1$ 。 $C = 1$ 代表全局耦合， $C = 0$ 代表所有节点的聚类系数皆为0。
社会学定义
$\frac{网络中三角形的数目}{网络中三元组的数目/3}.\tag{3.25}$
在网络科学中会关注一类节点的整体行为或平均行为，在已知各节点聚类系数的基础上，可计算得到度为 $k$ 的节点的聚类系数的平均值，于是便得到聚类系数表示为节点度的函数：
$\frac{\sum_iC_i\delta_{kk_i}}{\sum_i\delta_{kk_i}}.\tag{3.26}$
其中：
$\delta= \begin{cases} 1,& k_i = k,\\ 0, & k_i\neq k. \end{cases} \tag{3.27}$
对许多实际网络， $C (k)$ 具有幂律形式： $C(k)\sim k^{-\alpha}(\alpha >0)$ ，反映了网络具有层次结构。

3.5.2 加权网络情形

加权网络 $G$ ，邻接矩阵 $A = (a_{ij})$ 和非负的权值矩阵 $W = (w_{ij})$ ，由无权网络对节点聚类系数的定义（3.22）可得到加权形式的聚类系数：
$\tilde{C_i} = \frac{1}{k_i(k_i-1)}\sum_{j,k} w_{ijk}a_{ij}a_{jk}a_{ki},\tag{3.28}$
- 对 $w_{ijk}$ 的取法1：
  取为节点 $i$ 与其两个邻居节点 $j$ 和 $k$ 之间两条边的归一化平均值：
  $w_{ijk} = \frac{1}{\lang w_i\rang}\frac{w_{ij}+w_{ik}}{2}.\tag{3.29}$
  其中：
  $\lang w_i\rang = \frac{1}{k_i}\sum_iw_{ij}.\tag{3.30}$
  于是可以得到
  $\tilde{C_i}^{(1)} = \frac{1}{k_i(k_i-1)}\sum_{j,k} \frac{1}{\lang w_i\rang}\frac{w_{ij}+w_{ik}}{2}a_{ij}a_{jk}a_{ki},\tag{3.31}$
  对节点 $i$ 的强度 $s_i$ 满足
  $s_i = \sum_jw_{ij} = k_i(\frac{s_i}{k_i}) = k_i\lang w_i\rang.\tag{3.32}$
  于是得到：
  $\tilde{C_i}^{(1)} = \frac{1}{s_i(k_i-1)}\sum_{j,k} \frac{w_{ij}+w_{ik}}{2}a_{ij}a_{jk}a_{ki},\tag{3.33}$
- 对 $w_{ijk}$ 的取法2：
  取为节点 $i$ 与其两个邻居节点 $j$ 和 $k$ 组成三角形边的权值的归一化权值的集合平均：
  $w_{ijk} = (\hat{w_{ij}}\hat{w_{ik}}\hat{w_{jk}})^\frac{1}{3},\tag{3.34}$
  其中：
  $\hat{w_{ij}} = \frac{w_{ij}}{\max_{k,l}w_{kl}},\tag{3.35}$
  于是便得到第二种定义：
  $\tilde{C_i}^{(2)} = \frac{1}{k_i(k_i-1)}\sum_{j,k} (\hat{w_{ij}}\hat{w_{ik}}\hat{w_{jk}})^\frac{1}{3}a_{ij}a_{jk}a_{ki},\tag{3.36}$
第三种定义
由定义（3-23）得到：
$\tilde{C_i}^{(3)} = \frac{\sum_{j,k}\hat{w_{ij}}\hat{w_{ik}}\hat{w_{jk}}}{\sum_{j\neq k}\hat{w_{ij}}\hat{w_{ik}}}.\tag{3.37}$
其中 $\hat{w_{ij}}\in[0,1]$ 。

3.6 度分布

3.6.1 度分布的概念

$p_k$ ：度为 $k$ 的节点占总节点数的比例。如果是有向网络，还分为出度分布 $P(k^{out})$ 与入度分布 $P(k^{in})$ ，可以用直方图表示。

3.6.2 从钟形曲线到长尾分布

常用的具有钟形曲线的概率分布
连续：正态分布
离散：超几何分布、二项分布、泊松分布（最重要）
泊松分布
$\frac{\lambda^ke^{-\lambda}}{k!}.(\lambda>0)\tag{3.38}$
服从钟形曲线的分布都有一特征：其峰值即随机变量的均值。
长尾分布
实例：全世界财富分布

长尾分布：往往不具有明显的标度特征，因此也叫作无标度分布，下一节的幂律分布便是长尾分布。
在实际网络中，很多实际网络的度分布曲线满足长尾分布曲线。

3.7 幂律分布

表达形式： $Ck^{-\gamma},(\gamma>0)$ ,通常取值在2到3之间。
对上式取对数：
$\ln P(k) = \ln C - \gamma\ln k.\tag{3.39}$
在双对数坐标系中 $\ln P(k)$ 与 $\ln k$ 表现为线性关系，斜率为 $-\gamma$ ，截距为 $\ln C$ 。如图：
累积度分布

的方法是绘制累积度分布 $P_k$ ，进而光滑化处理数据。
含义：表示度不小于 $k$ 的占整个网络的比例，即在网络中随机挑选一个节点的度不小于 $k$ 的概率。
$P_k = \sum_{k'=k}^\infty P(k').\tag{3.40}$
如果一个网络服从幂律分布，则其累积度分布满足指数为 $\gamma -1$ 的幂律分布：
$P_k = C\sum_{k'=k}^\infty k'^{-\gamma} \simeq C\int_k^\infty k'^{-\gamma}dk' = \frac{C}{\gamma-1}k^{-(\gamma-1)},(\gamma>1).\tag{3.41}$

$P_k\sim \sum_{k'=k}^\infty e^{-k'/\kappa}\sim e^{-k/\kappa}.\tag{3.42}$
补充：