浅记《网络科学导论》知识点

最新推荐文章于 2021-11-16 17:53:02 发布

I_AM_KK

最新推荐文章于 2021-11-16 17:53:02 发布

阅读量4.7k

点赞数 1

分类专栏：杂谈

本文链接：https://blog.csdn.net/I_AM_KK/article/details/105693614

版权

杂谈专栏收录该内容

22 篇文章 0 订阅

订阅专栏

教材《网络科学导论》汪小帆李翔陈关荣

学习目标

了解社交网络与复杂网络的基本概念
了解可以使用的复杂网络分析来做什么
了解基本度量方法—评价体系
使用Gephi等工具获得动态网络分析的经验
核心算法的思想

专题

理论模型“小世界”，“优先连接”，SIR传播模型等
复杂网络（社交网络）建模
网络拓扑结构与特征
中心性（度量结点重要性程度）
社团（度量聚焦性）
相似性
推荐系统

1. 复杂网络的基本概念（网络，节点，边）

将一个复杂的分析目标的整体分解成很多要素，并将这些要素之间的关系用线连接起来。
这些要素就相当于节点，
线就相当于边，
结点和边组合在一起叫网，也就是复杂网路。

2. 结点重要性度量方法（中心性）

度中心性（邻居多）：一个节点的度越大就意味着这个节点越重要。
1.一个包含N个节点的网络中，节点的最大度值为N-1，那么就可以看节点 $v_i$ 的度值 $k_i$ 在总度值中的比例（归一化）。
度中心性就是 $C_D(v_i)=\frac{k_i}{N-1}$
2.特征：具有最多连接的节点。具有局部特征。
介数中心性（被当成中介，被经过多）：以经过某个节点的最短路径的数目来刻画节点重要性的指标。
1.设节点 $v_i$ 的介数为 $B_i$ ,它代表着所有最短路径中，路径包含节点 $v_i$ 所占的比例， $B_i=\sum_{s\neq t\neq i} \frac{\sigma_{st}(v)}{\sigma_{st}}$ 。
介数中心性就是归一化的介数（把所有介数拉到同一水平比较）： $C_B(v_i)=\frac{B_i-min(B)}{max(B)-min(B)}$ (值在0-1之间)
2.特征：桥梁枢纽作用，节点在最佳路径上，两头网络很多。具有全局特征。
紧密度中心性：是衡量节点在网络中居于中心的程度。（距离越小越好，但为了方便使用数字大小表示好坏，就取倒数）
1.计算节点到其他所有节点之间最短路径长度之和的倒数。即: $C_C(v_i)=\frac{1}{\sum_{j=1,j\neq i}^Nd_{ij}}$
2.特征：最接近所有其他节点的节点。网络中心。
特征向量中心性：和重要节点相连的节点很重要，和不重要节点相连的节点不重要，表示这个节点的传播能力。
1.对于节点 $v_i$ (补充)，令它的中心性分值 $x_i$ 正比于连到它的所有节点的中心性分值的总和。最后可以写成特征向量的形式，所有称为特征向量中心性。
平均路径长度：网络节点沿着最短路径到所有其他节点的平均步数。（越小越快，损耗越小，真实世界的平均路径就很短）
聚集系数：图中节点倾向于聚集在一起的程度的度量（紧密程度）
k壳中心性：
凡是度值小于等于i的节点都删掉，
先删孤立点，也就是孤立点。
再删度值为1的节点，检查一下，这时候的网络是否还有度值为1的节点，继续删，再检查，再删，直至没有度值为1的节点。
再删度值为2的节点，检查一下，继续删除新出现的度值为2的节点，直至没有度值为2的节点
……
这是一种粗粒化的节点重要性分方法。
HITS中心性（点击数）：衡量互联网网页的重要程度。权威值（特定网页）由枢纽值（类似于hao123）决定，枢纽值由权威值确定。

3. 节点的聚集（社团），边的权值

定义：内部连接的相对紧密，外部连接的相对稀疏的结构，叫社团结构

社团结构是指网络中节点组的出现，这些节点组内的连接比网络的其他部分的连接更为密集。
属性：社团划分的是顶点。随机网络不显示社团结构。社团结构在实际网络中相当普遍。
重要性：
社团可以揭示各种系统的功能。
社团可以识别网络的子结构，了解网络功能和拓扑之间的相互影响。
社团的存在影响各种过程，如谣言传播，流行病传播。
社团检测可以预测缺失连接和识别网络中的虚假连接
子团，相当于图的块数。
孤立节点，没有边相连。
连通子团，有边相连。
最大连通子团，节点数量最多的连通子团。
社团发现的分类与算法思想
社团发现是为了划分网络。
1.最小切割方法：通过把网络划分为固定数量的子团。不适合发现社团结构。
2.分层聚类：先定义一个相似度度量，量化节点对之间的相似性，然后根据相似性的大小把节点聚集在一起。比如：先把相似性为1的节点合并在一起（分了一层），在把相似性大于0.9的节点合并在一起（又分了一层），……这就是分层聚类。
3.Girvan-Newman算法：假设整个网络已经被划分，.Girvan-Newman算法就标识社团之间介数高的边（节点通过边较高的边）最后将其删除，只留下社团本身。
4.模块化最大化：
设网络中社团里的边数是m,邻接矩阵是 $A_ij$ , $k_i,k_j$ 是i,j的度值，如果i,j在一个社团里， $\sigma(C_i,C_j)$ =1，若不在， $\sigma(C_i,C_j)$ =0.网络的模块化程度用Q表示,Q越大模块化的程度越好：
$=\frac{1}{2m}*\sum_{ij}[A_{ij}-\frac{k_i*k_j}{2m}]\sigma(C_i,C_j)$
首先我们知道，若节点ij不在一个社团里面,Q就是0了，现在我们分析ij在一个社团里面的情况，
$A_{ij}$ 是所有边在一个社团里面的权值和，减去 $\frac{k_i*k_j}{2m}$ （假设ij就一条边相连，那么m=1, $A_{ij}=2,$ $\frac{k_i*k_j}{2m}=\frac{1}{2}$ ）我们看到这个公式，得知， $A_{ij}$ 社团内部边越多，Q值越大，越好。 $k_i*k_j$ ij度值越小Q值越大越好。
最优化问题
原因：计算机不能把所有问题在有限的时间内解出来，我们需要某种方法寻找这个问题最优解的近似解。
工程设计中最优化问题：选择一组参数（变量）在满足一系列有关的限制条件下，是设计目标达到最优值。因此最优化问题通常可以表示为数学规划形式的问题。

4. 社交网络的作用

分析官方或非官方的网络的聚集性，可以更好的管理公司或者其他社会关系。
设计适应性高的团队。
评估新结构并评估缩小规模等变化
估算组织设计和隐蔽网络的规模（毒品，恐怖分子）
网络管理/有效性分析
预防和分析风险（病毒传播）

5. ER随机模型

构造算法：
假设图G，有N个节点，既然叫随机模型，就表示边连接时是随机的，概率为p
现在我们就要随机给两个没有连边的节点的分配连边了，
生成一个在（0，1）之间的随机数r，若r<p,则连边，若r>p，则不连。

用G（N,P）表示这样的模型
p=0,代表任意俩节点不想连，就是孤立的N个节点。
p=1，代表N个节点任意俩都有边，也就是全耦合网络。
p=（0，1）之间，代表这幅图两两相连或不相连是随机的，那么此时图中N个节点，有M条边的概率为：有边的概率 $p^M$ ,无边就是 $1-p)^{(_2^N)-M}$ ,两者相乘，就是这幅图的连边概率p(M)= $p^M(1-p)^{(_2^N)-M}$
给定图中，一个节点有k条边与它相连（节点度的分布）的概率为：p(k)= $p^k(1-p)^{N-1-k}$
特点（平均路径长度小，聚集系数小，学完第6点在回来看这个特点。度的分布近似于泊松分布，学完第7点在回来看这个特点。）

6. WS小世界模型

有一个完全规则的网络（所有节点按照规律连），还有一个完全随机网络。
什么是小世界模型呢？（构造算法）
1.给定一个含有N个节点的环状最近邻耦合网络，其中每个节点都与它左右相邻的各K/2个节点相连，K是偶数。（完全规则的网络）
2.随机化重连：以概率p随机地重新连接网络中原有的每条边，即每条边的一个端点保持不变，另一个端点随机选择一个节点重连（默认不重边，不不自环）
我们了解，小世界模型是介于完全规则模型和完全随机模型之间的一种模型。
小世界模型有两个特点：低平均路径长度、高聚类系数。

平均路径长度（平均最短路径长度）：网络节点沿着最短路径到所有其他节点的平均步数。（越小越快，损耗越小，真实世界的平均路径就很短）
这里注意和网络直径区分开，网络直径是指，任意两个存在有限距离的节点（也称连通的节点对）之间的距离的最大值
- 若有N个节点，则共有 $\frac1 2N(N-1)$ 条边，所有边的距离和是 $\sum_{i \geqslant j} d_{ij}$
- 那么平均路径长度就是L= $\frac{1}{\frac1 2N(N-1)}\sum_{i \geqslant j} d_{ij}$
聚集系数（聚类系数）：图中节点倾向于聚集在一起的程度的度量（紧密程度）
- 求一个节点的聚集系数，我们首先找到这个节点的所有邻居，这完成了第一步的聚集，找到之后，看看邻居之间是否有边（这句话特别重要，如果邻居有边，那么这两个邻居和节点一定是组成三角形的，如果没有边，一定是个V字形，不是三角形，后面计算的时候可以用这个特征计算）
- 求出节点i的所有邻居个数n，计算邻居之间可能形成边的总数 $\frac{n(n-1)}{2}$
- 计算节点i的邻居之间真正的边数 $n_1$
- 那么节点i的聚集系数就是 $C_i=\frac {n_1} {\frac{n(n-1)}{2}}=\frac{2n_1}{{n(n-1)}}$
- 整个网络的聚集系数就是 $C=\frac{1}{N}\sum_{i=1}^{N}C_i$
- 特点：一个节点的度值越大，那么聚集系数的分母也会越大，聚集系数就会越小。
WS小世界模型的最大特点就是：当重连概率p较小时，网络即具有较短的平均路径长度又具有较高的高聚集系数

7. BA无标度网络模型

实际网络特性：
增长特性（网络规模的增加）----前面讲了ER随机模型和WS小世界模型，我们讨论的时候都是假设他们的节点个数是固定为N的，也就是网络规模几乎不变，但在真实场景下，网络的规模肯定是越来越大的，比如互联网页面的增加，科研文章的增加。
优先连接特性（马太效应，富者更富）—如果出现了新节点，那么这个新节点更倾向于与那些具有较高连接度的节点相连接。比如新论文更倾向于引用那些已经被广泛引用过的文献，新的网络连接更倾向于指向有巨大影响力的连接。

度和度值分布：度就是与节点i连接的边数，节点i的度用 $k_i$ 表示，网络中会出现不同的度值，我们整体看的时候就会关注节点的度在网络中的分布情况，这种情况用分布函数 $P (k)$ 描述， $P (k)$ 有两种通俗的理解方式，一种是： $P (k)$ 表示网络中度为k的节点在整个网络中所占的比例，另一种是：在网络中随机抽取到度为k的节点的概率为 $P (k)$
度的幂律分布：在某些网络中，度的分布满足一种形式 $P(k)=Ck^{-\gamma}$ 这种形式叫幂律分布，因为这种函数是以幂指数的形式下降的，而且下降的速度很快。整体的意思是，随着网络中度数的增大，其个数是减小的。在图上就会如下图显示：

这种也叫长尾分布（长尾效应），中间的黑点是节点，黑点的线是度，显示了度数和度的个数大概的分布情况。
因为这幅图是没有峰谷的，是一种平滑的曲线，也就是没有标度的，所有，有有这种现象存在的BA模型叫，BA无标度模型。
那怎么得到BA无标度模型呢？（构造算法）

增长：刚开始时什么也没有，我们开始引入两个点和一条边，再添加一个节点时，我们怎么选择和谁相连呢？
优先连接：这个新节点与一个已经存在的节点i相连接的概率 $\Pi_i$ 与度 $k_i$ 的关系为： $\Pi_i=\frac{k_i}{\sum_jk_j}$ 。分母是所有节点度值的总和，分子是节点i已有的度。如果节点i本身就有很多度（很多人与之相连），那么它的概率就大，被连的概率就大。这就是富者更富或马太效应的原因。

8.基本测度

有向图、无向图
边的强度或权重
连接矩阵
路径
距离
度值、出度、入度、汇点（都指出去）、源点（都指过来）
多重图（关系有很多种，朋友关系，师生关系）

9.复杂网络的表达方式

矩阵
三元组
邻接表

10.社交网络建模的主要问题

（分析人的社交）关注点：
向谁连接
属于那个组、社团
掌握的知识
控制的资源
参加的活动

11.网络分析的三个级别及内容

网络的密度
边的频率（吸毒人员轨迹）
中心性

12.网络分析的两个层次和常见的网络指标（测度）

层次：
个人行为
个人地位

测度：
规模（大小）：网络节点的数量
密度：实际连接数m与所有可能存在的连接数 $\frac{n(n-1)}{2}$ 之比。即 $\frac{m}{\frac{n(n-1)}{2}}$ 。网络规模与密度是负相关的（-0.69）
互惠性(有向网络)：A->B,B->A叫互惠性（个体之间的紧密程度）。描述对称性的。 $R=\frac {(A_{ij}=1)\&(A_{ji}=1)}{(A_{ij}=1)or(A_{ji}=1)}$
路径长度：一个点到另一个点经过的边数
平均路径长度：所有路径长度和求平均。
网络直径：网络中最短路径的最大值

13.数据挖掘、机器学习、统计的区别和联系

数据挖掘：计算机使用一定的手段用当前已知的量，预测未来有用的量。处理的数据量很大。
关联规则发现
顺序模式发现
回归
异常检测
机器学习：训练数据，然后使机器具有一定的功能来解决能够解决的问题。
统计：使用统计学分析数据之间的关系。
复杂网络是一种模型手段，可以用来网络分析。

14.推荐系统

1.概念：因为搜索引擎时代不足以满足需要求，人类进入推荐时代。把用户喜欢的推荐给用户，把不喜欢的过滤掉。
2.结构：物品数据、用户数据、用户对部分物品的偏好信息、设计一种模型可以判断用户对未知事物的喜好。
3.二部图模型
把用户用节点表示放在上面，把物品用节点表示放在下面，（两层）把用户对物品的评价相连。
4.推荐系统各种推荐算法

I_AM_KK

关注

1
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
浅记《网络科学导论》知识点

教材《网络科学导论》汪小帆李翔陈关荣学习目标了解社交网络与复杂网络的基本概念了解可以使用的复杂网络分析来做什么了解基本度量方法—评价体系使用Gephi等工具获得动态网络分析的经验核心算法的思想专题理论模型“小世界”，“优先连接”，SIR传播模型等复杂网络（社交网络）建模网络拓扑结构与特征中心性（度量结点重要性程度）社团（度量聚焦性）相似性推荐系统复杂...
复制链接

扫一扫

专栏目录