RAK算法可以非常简单地描述。每个顶点都与一个标签相关联,标签是一个标识符,比如整数。
1.初始化时,每个顶点都有一个唯一的标签
2. 然后,重复地,每个顶点x更新它的标签,用最多邻居使用的标签替换它。如果相同最大邻居数量使用多个标签,则随机选择其中一个。经过几次迭代后,相同的标签趋向于与社区的所有成员相关联。
3.所有具有相同标签的顶点被添加到一个社区中
传播阶段并不总是收敛到这样一种状态,即在连续迭代中所有顶点具有相同的标号。为了确保传播阶段终止,Raghavan等人提出使用“异步”更新,即顶点标签根据一些邻居的先前标签和其他邻居的更新标签进行更新。节点被放置在一个随机的顺序中。在第t次迭代中,x的新标号是基于第t次迭代中x之前的邻居的标号和在第(t - 1)次迭代中x之后的邻居的标号。
算法终止时,每个顶点都有一个标签,是那些被最大数量的邻居使用的标签之一。
该算法生成包含共享相同标签的所有顶点的组。这些组不一定是连通的,因为组中的每一对顶点之间都有一条路径,该路径只通过同一组中的顶点。由于社区通常被要求是相互连接的,Raghavan等人提出了最后的阶段,将这些团体分成一个或多个相互连接的社区。
重叠社区
在RAK算法中,顶点标签标识顶点所属的单个社区。如果社区重叠,每个顶点可能属于一个以上的社区。因此,为了找到重叠的社区,我们显然需要允许顶点标签包含多个社区标识符。
我们可以用一组对(c,b)标记每个顶点x,其中c是社区标识符,b是归属系数,表示x在社区c中的成员强度,这样x的所有归属系数总和为1。
每个传播步骤都将x的标签设置为其邻居标签的并,将社区对所有邻居的归属系数求和并进行归一化。