基于信息熵和局部相关性的多标签传播重叠社区发现算法
摘要:是一种对COPRA算法进一步改善的算法。本文提出一种基于信息熵和局部相关性的多标签传播重叠社区发现算法。该算法在标签传播阶段,采用异步更新策略,利用信息熵产生更新序列指导标签更新,解决社区划分结果不稳定问题。同时在标签选择阶段,根据节点与自我网络中其他节点的相关程度选择标签,提高所发现社区的质量。
1 引言
COPRA算法能够适应当前大规模社会网络的社区发现工作[2],但是由于标签传播算法的随机性,导致多次运行结果会有较大程度的差异,且社区划分质量不高,甚至出现错误的社区划分。因此,本文针对现有基于标签传播思想的重叠社区发现算法存在的问题进行改进,提高社区划分精度和生成社区的质量。
2 基于信息熵和局部相关性的多标签传播重叠社区发现算法(COPRA-EP)
2.1 COPRA-EP的算法描述
2.2 COPRA-EP的预备知识及定义
(1) 即为式(1)
其中,L{v,N(v)}表示节点v及其邻居节点拥有的标签集合;N(v)表示节点v的邻居节点;p(l)表示标签l在集合中出现的概率
注意:节点v的熵值[3]越小,该节点越可能处于社区内部;反之亦然。本文采用社区背部节点先于社区边缘节点