社区发现FN算法Python实现

最新推荐文章于 2023-02-10 09:10:07 发布

地学分析与算法

最新推荐文章于 2023-02-10 09:10:07 发布

阅读量5.6k

点赞数 4

分类专栏： Python 算法文章标签：社区发现 GN算法 FN算法 GN算法与FN算法对比社区发现评价指标

本文链接：https://blog.csdn.net/qq_25102303/article/details/106737294

版权

Python 同时被 2 个专栏收录

12 篇文章

订阅专栏

算法

10 篇文章

订阅专栏

社区发现FN算法Python实现

2004年，Newman在GN(Girvan and Newman, 2002)算法的基础上，提出了另外一种快速检测社区的算法，称为FN算法。该算法能得到和GN算法相似的结构，但是时间复杂度更低，GN算法的时间复杂度为 $O(m^2n)$ ，FN算法的时间复杂度为 $O ((m + n) n)$ ，其中， $m$ 是边的数量， $n$ 是节点的数量。此处给出FN算法的Python实现，并给出对比实验以及社区发现的三种评价指标。

在这里插入图片描述
Newman, M. E. J. ,2004. Fast algorithm for detecting community structure in networks. phys rev e stat nonlin soft matter phys, 69, 066133.

去看原文

算法原理

FN算法是一种层次聚类算法。起初每个节点都是一个类。每次合并让Q值增加（即 $\Delta{Q}$ ）最大的一对节点，重复这个过程，直到所有节点都在一个社区为止。在这个合并的过程中，选择Q值（社区发现评估指标）最大的作为最终划分结果。

$\Delta{Q}=2(e_{ij}-a_ia_j)$
其中， $e_{ij}$ 表示连接社区 $i$ 和社区 $j$ 的边的比例； $a_i$ 表示连接到社区 $i$ 的所有末端节点比例， $a_i=\sum_j{e_{ij}}$ 。以下是一个合并的结构图，从下往上进行合并。
在这里插入图片描述

评价指标

社区发现的评估指标主要有三个：互信息和标准化互信息（Normalized Mutual Information，NMI指数）、调整兰德指数（Adjusted Rand Index，ARI指数）、模块度Q（modularity Q）。

当无法获取真实社区划分结果时，可以采用模块度Q来评价。Modularity用于评判社区划分结果的优劣。模块度越大则表明社区划分效果越好，其范围在 $[- 0.5, 1)$ ，论文(Newman, 2003)表示当Q值在0.3~0.7之间时，说明聚类的效果很好。

$Q=\sum_{i=1}^{n}(e_{ii}-a_i^2)$
其中 $e_{ij}=\sum_{vw}\frac{A_{vw}}{2m}$ ， $a_i=\frac{k_i}{2m}=\sum_je_{ij}$ 。
$m$ 表示边的数量， $e_{ij}$ 表示一个节点在社区 $i$ 内，另一个节点在社区 $j$ 内的边的比例。 $e_{ii}$ 表示在社区 $i$ 内所有的边与整个网络所有的边的一个比值（一个社区内部的度比上整个网络的度），而 $a_{i}$ 则表示i社区内的节点的度（包含了一点在社区 $i$ 内一点在社区 $i$ 外的边的度）占整个网络的度比值。

可将模块度用矩阵形式表示，即
$Q=\frac{1}{2m}Tr(S^TBS)$
其中， $B_{ij}=A_{ij}-\frac{k_ik_j}{2m}$ ， $k_i$ 代表的是节点 $i$ 的度， $A_{ij}$ 为邻接矩阵; $S$ 为每个节点所属社区的one-hot表示， $S_{ir}=1$ 表示第 $i$ 个节点属于第 $r$ 社区。

当已知真实社区划分结果时，可采用NMI指数和ARI指数进行评价。
1.NMI指数
如果结果越相似NMI值应接近1；结果很差则NMI值接近0。
$NMI(X,Y)=\frac{2MI(X,Y)}{H(X)+H(Y)}$
其中， $MI(X,Y)=\sum_{i=1}^{|X|}\sum_{j=1}^{|Y|}P(i,j)log(\frac{P(i,j)}{P(i)P'(j)})$ ； $H(X)=-\sum_{i=1}^{|X|}P(i)log(P(i))$ ； $H(Y)=-\sum_{j=1}^{|Y|}P'(j)log(P'(j))$ ， $X ， Y$ 是划分类别唯一标签和真实类别唯一标签。

以下将用一个例子来介绍如何计算。
输出的划分结果：A=[1 2 1 1 1 1 1 2 2 2 2 3 1 1 3 3 3]
真实的划分结果：B=[1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3]

那么 $X = u n i q u e (A) = [1, 2, 3] ， Y = u n i q u e (B) = [1, 2, 3]$ ，
$P (i, j)$ 表示同时属于社区 $i$ 和社区 $j$ 的节点的联合概率， $P(i,j)=\frac{|X_i\bigcap{Y_j}|}{N}$ , $N$ 为节点数, $i\in{X},j\in{Y}$ ；
$P (i), P (j)$ 分别为类别 $i, j$ 的概率分布， $P(i)=\frac{|X_i|}{N},P'(j)=\frac{|Y_j|}{N}$ ；
$H (X), H (Y)$ 分别为 $X, Y$ 的信息熵。
所以 $P (X) = [8 / 17, 5 / 17, 4 / 17]$ ， $P (Y) = [6 / 17, 6 / 17, 5 / 17]$
$P(X,Y)=\begin{bmatrix} 5/17 & 1/17 & 2/17 \\ 1/17 & 4/17 & 0 \\ 0 & 1/17 & 3/17 \\ \end{bmatrix}$
因此， $MI(X,Y)=sum(P(X,Y) * log(P(X,Y)/(P(X)^TP(Y))))$ ， $H(X)=-P(X)log(P(X)^T)$ ， $H(Y)=-P(Y)log(P(Y)^T)$ ，则 $N M I (X, Y) = 0.3646$

[1] Detecting the overlapping and hierarchical community structure in complex networks

2.ARI指数
兰德指数（RI指数）是两种划分 $X, Y$ 中顶点对正确分类的数量（顶点对在同一个社团中或者在不同的社团中）与总的顶点对的数量的比值，可以使用下式表示：
$RI(X,Y)=\frac{a_{00}+a_{11}}{a_{00}+a_{01}+a_{10}+a_{11}}=\frac{a_{00}+a_{11}}{C_2^n}$
其中， $a_{00}$ 表示在真实社团划分与实验得到的社团划分里都不属于同一社团的点对数目； $a_{11}$ 表示在真实社团划分与实验得到的社团划分里都属于同一社团的点对数目； $C_2^n$ 指可以组成的总顶点对对数。 $R I$ 取值范围为 $[0, 1]$ ，值越大意味着两种划分结果越吻合。然而 $R I$ 会存在区分度不高的情况。因此为了提高区分度，提出了ARI指数：
$ARI=\frac{RI-E(RI)}{max(RI)-E(RI)}$
$A R I$ 取值范围为 $[- 1, 1]$ ，值越大意味着两种划分结果越吻合。从广义的角度来讲，ARI衡量的是两个数据分布的吻合程度。