学习记录 社区发现算法综述


复杂网络的社团划分相关学习进行了好一阵子,整理整理吧,这次先从国防科大骆志刚教授的论文《复杂网络社团发现算法研究新进展》说起。


一、基于模块度优化的社团发现算法,也就是优化模块度Q值的一部分算法。Q值是由Newman在2004年的论文"Fast Algorithm for Dectecting Community Structure in Networks"中提出的(也就是FN算法)。通过优化Q值来提高模块度是这类算法的主要思路,在此基础上,本文又划分了三个类别:①采用聚合思想,也就是分层聚类中的自底向上的作法。典型算法有Newman快速算法(FN算法)、CNM算法(Finding Local Community Structure in Networks)和MSG-MV算法(Multistep Greedy Algorithm Identifies Community Structure in Real-World and Computer-Generated Networks)等。②采用分裂思想,也就是分层聚类中自顶向下的方法。代表当然就是Newman的GN算法,但是GN的复杂度实在是高了些,所以Newman之后提出的一种谱方法(Modularity and Community Structure in Networks),吐槽一句Newman真的是这方面的大牛啊。。。再吐槽一句,Newman那本800多大洋的书真是想买但真是贵啊!③直接寻优法,这类算法的两个代表EO算法(Community Detection in Complex Networks Using External Optimization)和整数规划方法我还都没有看过,但是一些基于遗传算法和蚁群的智能划分方法也属于此类。但是在2007年的论文"Resolution Limit in Community"中认为基于Q值的优化方法无法处理粒度小于一定程度的网络,虽然后续跟进了一些优化的算法,但是此类方法在处理真实网络时还是很难反映真实的社团结构。


二、基于谱分析的社团发现算法,这类算法的普遍方法是将节点对应的矩阵特征分量看成空间坐标,将网络节点映射到多维向量空间去,运用传统的聚类算法将它们聚集成社团。这种方法不可避免的要计算矩阵的特征值,开销很大,但是因为能直接使用很多传统的向量聚类的成果,灵活性很高。


三、基于信息论的社团发现算法,Rosvall的两篇论文,"An Information-theoretic Framework for Resolving Community Structure in Complex Networks""Maps of Random Walks on Complex Networks Reveal Community Structure"分别运用了模拟退火优化算法随机游走的有效编码方式。09年的论文"Community Detection Algorithms:A Comparative Analysis"已经测试表明该方法是目前非重叠社团发现算法中准确度最高的。


四、基于标号传播的社团发现算法,Raghavan基于网络的边很多时候代表信息的传播这一思想提出的LPA算法(Near Linear Time Algorithmto Detect Community Structures in Large-scale Networks)。LPA算法首先为每个节点指派唯一标号, 在每一步迭代中, 每个节点将自身标号更新为其邻节点出现次数最多的标号,如果存在多个相同的最多标号, 则随机选择一个作为更新值,若干次迭代后密集相连的节点会收敛于同一标号,最终,具有相同标号的节点归为一个社团。该算法时间复杂度为O(m),收敛速度非常快。"Towards Rea-l time Community Detection in LargeNetworks"中改进了标号更新规则,进一步降低了计算开销。



对于非重叠社团的划分算法已经相对成熟,但是真实世界的网络和这种理想状态相去甚远,经常有某些节点同时具有多个社区的特性,属于多个社区,在这种状况之下,对于重叠社区的划分明显更有意义更贴近真实世界,也因此成为近年来新的研究热点。相应的,本文将重叠社区划分算法分为以下几类:

一、基于团渗透改进的重叠社区发现算法,Palla的论文"Uncovering the Overlapping Community Structure of Complex Networks in Nature and Society"中提出的CPM算法是第一个能发现重叠社区的算法,CPM算法就不展开讨论了,如果是研究重叠社区发现算法的话肯定是看过的。值得一提的是Kumpula在前人基础上提出的SCP算法(Sequential Algorithm for Fast Clique Percolation)较大的提升了团渗透算法的速度。该类算法的问题这篇文章虽然也是简单的一说,但是比之前某些人简单的用一个K值不好确定来敷衍了事要来的有意义的多:基于团渗透思想的算法需要以团为基本单元来发现重叠,这对于很多真实网络尤其是稀疏网络而言,限制条件过于严格,只能发现少量的重叠社团(Identification of Functional Modules in a PPI Network By Clique Percolation Clustering)。

(后面还有几个类别,我觉得因为一个算法而划分为一个分类,实在是没有介绍的必要,当然,也部分因为我觉得那几个我实在是理解不能)


二、基于种子扩散思想的重叠社区发现算法,此类算法的基本思想是以具有某种特征的子网络为种子,通过合并、扩展等操作向邻接节点扩展,直至获得评价函数最大的社团。Lancichinetti 等提出以若干个节点为种子,通过扩展形成对整个网络的覆盖, 即LMF算法(Detecting the Overlapping and Hierarchical Community Structure in Complex Networks)。


三、基于混合概率模型的重叠社区发现,前述的很多算法都是自己给出了社团结构的定义然后相应给出算法,但这样的划分必须对社团先做出符合结构定义的假设。针对此问题,Newman等建立了社团结构的混合概率模型(Mixture Models and Exploratory Analysis in Networks),以概率方法对复杂网络的社团结构进行探索,以求得期望最大的社团结构,从而避开社团定义的问题。通过该算法能够识别重叠社团,并得到隶属程度大小。然而,该方法基于EM算法来估计未知参数,收敛速度较慢,计算复杂度较高, 一定程度上制约了算法的应用规模。


四、基于边聚类的重叠社团发现,这类方法以边为研究对象,推荐两篇论文:LineGraphs, LinkPartitions, and Overlapping CommunitiesLink Communities Reveal  Multiscale  Complexity in Networks.前者通过转换网络,可以用非重叠社区的方法提示网络的重叠社团,后者解决重叠性与层次性冲突,提出了变社团。

遗憾的是,文章没有介绍动态变化的复杂网络

PS:红色的字是给自己做的标注,后面要去查阅或复习。

上文是从http://blog.csdn.net/loptimistic/article/details/8173555转载而来。


展开阅读全文

没有更多推荐了,返回首页