重叠社区发现-UEOC算法（unfold and extract overlapping communities）学习笔记

最新推荐文章于 2024-06-15 19:07:36 发布

篮砂石

最新推荐文章于 2024-06-15 19:07:36 发布

阅读量913

点赞数

分类专栏：社区划分文章标签：算法

本文链接：https://blog.csdn.net/lanshashi/article/details/109921340

版权

社区划分专栏收录该内容

17 篇文章 15 订阅

订阅专栏

本文提出了一种基于马尔可夫动力学模型的发现节点共享社区的算法UEOC。在UEOC方法中，为了检测出所有的自然群落，将马尔可夫随机游动方法与一种新的约束策略相结合，该策略基于相应的退火网络[21]，用于展开每个群落。然后，利用一个借助电导的截止准则，即一个局部社区适应度函数[22]，提取出的社区。如果该配置存在于网络中，这些提取的社区将自然重叠。此外，我们方法的一个优点是UEOC对其唯一参数的选择不敏感，并且不需要预先知道社区结构，比如社区的数量。

算法思想：

（1）选取度最大的节点s，s未被分配到任何社区;

（2）利用结合约束策略的马尔可夫随机游动方法展开节点s的自然群落;

（3）通过基于电导函数的截止准则提取节点s出现的社区;

（4）如果仍有未分配给任何社区的节点，则从（1）重复。

UEOC的核心是如何展开和提取每个节点的自然群落，这直接决定了算法的性能。对于第一个目标，本文提出了一种结合约束策略的马尔可夫随机游走方法，这将使每个社区都清晰可见。针对第二种情况，提出了一种基于电导函数的截止准则，以精确地提取出现的群落。

1.展开社区

假设网络N = (V, E)，考虑定义在N上的一个随机过程，其中一个假想代理沿着节点之间的链接自由地从一个节点走到另一个节点。当代理到达一个节点时，它将随机选择一个相邻节点并移动到那里。

假设X = {Xt, t≥0}表示代理职位,和P {Xt = j, 1≤j≤n}的概率表示代理走t步之后到达节点j。对于t > 0，我们有P{Xt | X0, X1，…，Xt-1} = P{Xt | Xt-1}。也就是说，代理的下一个状态完全由前一个状态决定，该状态称为马尔科夫属性。这随机过程是一个离散的马尔可夫链及其状态空间v .此外,Xt是均匀的,因为P {Xt= j | X(t-1) =i}= pij,其中pij是从节点i到节点j的转移概率。用N的邻接矩阵表示， $A = (a_{ij})_{n\times n}$ ,Pij被定义为：

让我们考虑上面的马尔可夫动力学模型，给定代理的特定源节点s，让 $\alpha _{s}^{l}\left ( i \right )$ 表示该代理从节点s开始并最终在l步内到达任意目的节点i的概率。 $\alpha _{s}^{l}\left ( i \right )$ 的值，可以被下述公式迭代估计 , $\alpha _{s}^{l}\left ( i \right )$ 称为l步转移概率分布(向量)。注意，从源节点s到达所有节点的概率值之和将是1，即，当步骤数l等于0时，这意味着代理仍然在节点s上，那么对于每个i≠s 等于1，等于0。

由于一个社区内的链接密度通常比社区之间的链接密度高得多，当l的值合适时，从源节点s开始的随机游走代理应该有更多的路径可供选择，以在l步内到达其自己社区中的节点。相反，代理到达其相关社区之外的节点的概率应该低得多。换句话说，代理将很难通过这些“瓶颈”链接逃离其现有社区，并到达其他社区。因此，一般来说，当步数l合适时，向量应大致满足条件在这个等式中，Cs表示节点s所在的社区。然而，尽管上述马尔可夫方法很好地适用于一些简单的网络，例如纽曼模型中的基准图和一些小的真实网络，但是它对于一些复杂的网络，例如兰奇尼蒂模型中的基准图和一些大规模真实网络并不那么有效。此外，该方法对步数l的选择非常敏感，步数l对其性能有着至关重要的影响。

许多内部社区节点的关联概率值小于外部社区节点的关联概率值，因此无法展现清晰的社区。这也意味着对这个相对复杂的网络来说不太符合条件。

为了克服这些缺点，提出了一种结合约束策略的马尔可夫随机游走方法。我们方法的思想产生于这样一种直觉，即具有社区结构的网络上的马尔可夫随机过程不同于其相应的没有社区的退火网络上的过程。考虑到这一点，在每个步骤中，代理从特定源节点s开始并到达每个目的节点I的概率将被定义为在社区网络N上计算的与其相关联的概率和在相应的退火网络r上计算的与其相关联的概率之间的差值。由于R没有群落结构，所以网络N中一个群落内的链接密度要比R中高得多，而N中群落间的链接密度要比R中低得多。因此，在退火网络带来的约束下，该代理将被阻止逃离其关联的社区并到达该社区之外的节点。这也将导致，每个社区内节点的计算概率值将较高，而每个外部节点的计算概率值将相对较低，并且在大多数情况下甚至等于0。