12-网络中的社区检测

最新推荐文章于 2024-08-04 11:16:45 发布

杰克船长有烦恼

最新推荐文章于 2024-08-04 11:16:45 发布

阅读量1.2k

点赞数

分类专栏： cs224w图神经网络从零开始

本文链接：https://blog.csdn.net/m0_50976935/article/details/127016837

版权

cs224w图神经网络从零开始专栏收录该内容

16 篇文章

订阅专栏

图机器学习(网络中的社区检测)

1. 前言

图中的社区识别任务就是对节点进行聚类

请添加图片描述

网络会长成图中这样：由多个内部紧密相连、互相只有很少的边连接的community组成。

1. 从社会学角度理解这一结构：

在社交网络中，用户是被嵌入的节点，信息通过链接（长链接或短链接流动）。以工作信息为例，Mark Granovetter 在其60年代的博士论文中提出，人们通过人际交往来获知信息，但这些交际往往在熟人（长链接）而非密友（短链接）之间进行，也就是真找到工作的信息往往来自不太亲密的熟人。这与我们所知的常识相悖，因为我们可能以为好友之间会更容易互相帮助。

请添加图片描述

2.原因分析

‎结构：也就是社区内部、紧凑的短边更强，社区之间、稀疏的长边更弱。
人际关系：长距离边可以使人获取网络中不同部分的信息，从而得到新工作。structurally embedded边在信息获取方面则是冗余的。也就是说，你跟好友之间可能本来就有相近的信息源，而靠外面的熟人才可能获得更多新信息。

请添加图片描述

3. Triadic Closure

Triadic Closure是指在社交网络中，节点往往有三角形的relation关系。

举例：
‎如果B和C有一个共同的朋友A，那么：‎
‎B更有可能遇到C‎（因为他们都花时间与A在一起）‎
‎B和C相互信任‎（因为他们有一个共同的朋友）‎
‎A有动力将B和C放在一起‎（因为A很难保持两个不相交的关系）‎

有研究表明，青少年女生聚类系数低，那么自杀倾向较高。人类就是群居动物。

4. Edge overlap

下面来看如何量化两个节点间关系的强弱：

请添加图片描述

$N (i) 表示节点 i 的邻居集合。$ 上式中分子是除了i，j节点本身外二者的共同邻居，分母是除了i，j节点本身外二者所有邻居。

请添加图片描述

有了这个量化值后，可以看一些实例数据对60年代的理论分析的实证。

请添加图片描述

上图中，蓝色是真实的通话数据，红色是保持网络结构不变随机分配通话数量后的结果。横坐标通话数量和纵坐标edge overlap之间具有正相关性。

将部分数据可视化后（密集community颜色越红）：
请添加图片描述

将通信数量随机分配后：

请添加图片描述

从移边【1】分解实验可以看到

请添加图片描述

红色是Low to high的overlap移边方式，图分解更快。
黑色是High to low的overlap移边方式，图分解较慢。

【1】移边，相当于先将重合率低的边先移除

2. Network Communites

下面在看几个从图中找Network Community的例子，然后看如何在图中用数学的方式把Network Community给定义出来。
Network Community的别名还有：clusters, groups, modules

1. 例子

以Zachary’s Karate club network来说，通过社交关系创造的图就可以正确预判出成员冲突后会选择哪一边

请添加图片描述

在在线广告投放中，把广告商和查询关键字看做节点，将广告商投放的关键字作为边。可以识别出有针对性的投放区域。

请添加图片描述

NCAA Football Network，节点是球队，边是球队之间的比赛，原始图这样：

请添加图片描述

聚类后发现和某些conference（赛区）有关：

请添加图片描述

下面看如何找社区。

2. Network Communites的模块化程度

社区：紧密连接的节点‎‎集
定义：模块化 Q‎
‎网络划分为社区的程度的度量。‎‎给定网络划分为不相交的组‎‎ $s\in S$

$Q\propto \sum_{s\in S}[(\sharp edges\quad within\quad group\quad s)]-(expeted\sharp edges\quad within\quad group\quad s)$

这里的后面的一项比较难理解，是一个期望，实际上是需要使用随机图（Null model）来求。

3. Null Model

给定一个实际的图G，该图包含n个节点，m条边，根据图G保持节点和边数量不变（Same degree distribution but uniformly random connections），重新分配边的连接得到图 $G^{'}, 而且图 G^{'}$ 是multigraph，就是允许两个节点间有多条边。

接下来算期望。

请添加图片描述

如果把边看成双向的，那么共有2m条有向边（这样算是因为节点都象上图一样切开了，每个点的条幅数量加起来就是2m），对于出度为 $k_i的i$ 节点，其重新连接到节点j的概率是： $\frac {k_j}{2m}$ ，因此重连 $i, j$ 的边的数量期望是： $k_i\cdot \frac{k_j}{2m}$

那么计算 $G^`$ 的期望总边数为：

请添加图片描述

这里因为条件中讲了，所有节点的边（度）加起来是2m，因此： $\sum_{i\in N}k_i=\sum_{i\in N}k_j=2m$

这里也证明了Null Model中与原图的度是一致的。注意：Null Model可以用在有权图中，有权图可以把权重与度做乘积即可。

4. Modularity

具体来算Modularity，根据上面的公式：

请添加图片描述

加上具体的数学表达，Modularity公式变成：

请添加图片描述

这里的 $\frac{1}{2m}$ 相当于归一化常数，使得 $-1\leq Q \leq 1$ 其中A就是邻接矩阵（可以是有权图）。如果S中的边比随机图中边（期望数量）要多，上面括号里面的值就为正，说明S中边要比随机图要密集。一般Q在0.3-0.7之间就意味图中有非常明显的community结构。

Modularity的最终形式如下：

请添加图片描述

这里的 $c_i,c_j$ 是同一社区的节点 $\delta$ 是指示函数，当两个节点来自相同社区 $\delta(c_i,c_j)=1$ 否则为0，我们可以通过最大化modularity来找出社区。

3. Louvain Algorithm

下面用Louvain算法来最大化modularity来找出社区

1. 算法概述

Louvain Algorithm是一个贪心算法，时间复杂度为：O(n log n)

该算法支持有权图（无权图可以看做边的权重都为1），最后的结果是层次结构的。

请添加图片描述

算法可用于大型网络，原因是：算法快、收敛快。可得到高modularity的输出
整个算法可以分三个步骤：

仅通过节点-社区隶属关系的局部改变来优化modularity。
将第一步识别出来的communities聚合为super-nodes，从而得到一个新网络。
返回第一阶段，重复直至modularity不可能提升。

2. 步骤一

先给出大概的描述，再看具体算法。
1.先将图中每一个单独的节点看做一个community。
2.对每个一个节点i，执行两个计算
1.计算将节点i加入节点i的邻居节点j所在社区后的modularity值： $\Delta Q$
2.确定将节点i加入邻居节点j所在社区，使得 $\Delta Q$ 最大
3.当modularity值不再增加时，步骤1结束
选择不同的节点i计算得到modularity值会有所不一样，但是研究表明，这基本不会影响最终的community划分

1. 计算 $\Delta Q$

假设节点i当前所在社区为D，移动到其邻接节点j所在社区为C，那么:

请添加图片描述

其图例为：

请添加图片描述

下面来推导等式右边的两项，先看 $\Delta Q(i\rightarrow C)$

2.推导 $\Delta Q(C)$

先算社区C的modularity： $Q (c)$

设： $\sum_{in}\equiv \sum_{i,j\in C}A_{ij}$

记为社区C中节点内部边的权重和，A是邻接矩阵，i，j是C中的任意两个节点。

请添加图片描述

$\sum_{tot}\equiv \sum_{i\in C}k_i$

记为社区C中节点所有边的权重和，tot是total的缩写。

请添加图片描述

从图例中可以看到为了兼容有向图，这里的无向图边算了2次，看不懂会前面看modularity推导。根据公式，我们可以得到：

请添加图片描述

这里由于i，j都是来自相同社区C，因此指示函数 $\delta$ 值为1，然后把前面的 $\frac{1}{2m}$ 方进行去：

请添加图片描述

上式中第一项是社区节点内部的边权重，后面一项是社区节点所有边的权重
当社区内部节点的边权重越大，Q©就越大。

3. 推导 $\Delta Q(i\rightarrow C)$

进一步定义：

请添加图片描述

节点i在社区C外面，它与社区内部的权重和记为 $k_{i,in}$ ,同样计算两次

请添加图片描述

同样记节点i的权重和（其实就是度）为 $k_i$

请添加图片描述

那么在节点i加入社区C之前，计算公式为：

请添加图片描述

在节点i加入社区C之后，计算公式为：

请添加图片描述

第一项的分子 $\sum_{in}+k_{i,in}$ 相当于计算新社区C+{i}的内部边权重： $\sum_{inafter}$

第二项的分子 $\sum_{tot}+k_{i}$ 相当于计算新社区C+{i}的内部边权重： $\sum_{totafter}$

根据上述公式

请添加图片描述

有了这个结论， $\Delta Q(i\rightarrow C)$ 也可以计算，因此：

请添加图片描述

也可以相应的计算出来。

4.步骤一的迭代及其终止

重复步骤1直到没有节点移动到新的社区：
对社区C中每个节点i，计算其最佳社区 $C^`$ ,使其满足：

请添加图片描述

如果计算得到的 $\Delta C(D\rightarrow i\rightarrow C^`)>0$ 则将节点i从原社区移动到新的社区里面去

3. 步骤二

这个步骤相对简单一些。
将上一步得到结果中的各个社区看做一个个super-nodes，然后得到新的一个网络，并将步骤1中的计算过程在新网络中再玩一次。
对于新网络创建，需要注意下面两点：
1.如果上一步的两个社区之间有若干个边相连，那么两个社区对应的super-nodes也相连；
2.两个super-nodes相连的边的权重等于两个社区之间所有相连边的权重和。

请添加图片描述