基于GraphX实现的community detection算法--Label Propagation分析

最新推荐文章于 2024-05-14 15:55:56 发布

TangShangWen

最新推荐文章于 2024-05-14 15:55:56 发布

阅读量1.1w

点赞数 3

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shangwen_/article/details/39100525

版权

spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Label Propagation（简称LPA）

算法的优点

是一个简单容易理解的算法，主要用于community detection，它不用我们预先给定community的数量，可以控制迭代的次数去将图中节点去分类。

LPA的另一个极大的优点在于scalability，非常适合用来处理large graph，因为算法的实质是 vertex-centric model，所以其实是可以在Map-Reduce上实现它。

算法的大致思想描述如下：
1. 构造图graph。为graph中的每个顶点，分配一个唯一的label。一般可以考虑用node的id当成它的label id;

2. 开始计算每个node新的label。规则是，统计node周围所有邻居的label，出现次数最多的label将被设置成这个node的新label;

3. 如果邻居中出现次数最多的label有多个，那么随机的选择其中的一个label (例如在起始计算中，因为每个node的label都是唯一的，所以每个node周围所有的label出现次数都是1，这时候相当于随机的选择一个邻居的label作为自己的label);

4. 计算所有node之后，判断是否达到了终止条件，如果没有，回到第2步继续计算;

5. 经过几次迭代，到达终止条件，算法完成。现在图中，具有相同label的node属于同一个community。

算法终止条件：它要求所有的node都满足:

node的label一定是它的邻居label中出现次数最多的(或最多的之一)，这意味着，每个node的邻居中，和它处于同一个community的数量一定大于等于处于其它community的数量。

以上是LPA算法的原理

spark的graphx实现版本如下：

本人也实现一个版本，但是相对与这个版本来说实在惭愧，所以打算用好的例子去分析。

这个算法可能会出现在下个版本的GraphX的Lib中。

代码相对于GN来说还是比较简洁的，原理我在注释写了，需要注意的是由于该实现的算法没有控制发送消息的条件，是要控制迭代的次数的，如果迭代的次数过多，就容易所有都打上一样的标签，这个还是要自己按要求去控制吧。

最后，由于算法原理不是我看论文翻译出来的，所以标记个算法原理的出处：

http://greatpowerlaw.wordpress.com/2013/02/08/community-detection-lpa/

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
基于GraphX实现的community detection算法--Label Propagation分析

最近Label Propagation（LPA）算法
复制链接

扫一扫

专栏目录

TangShangWen CSDN认证博客专家 CSDN认证企业博客

码龄13年

25: 原创

32万+: 周排名

109万+: 总排名

9万+: 访问

: 等级

1266: 积分

18: 粉丝

7: 获赞

10: 评论

16: 收藏

私信

关注

热门文章

分类专栏

Jvm 2篇
hadoop 2篇
算法 3篇
Linux 3篇
python
Hbase
Java
电脑小技巧 1篇
s'pa
spark 4篇

最新评论

Spark的Graphx学习笔记--Pregel
wsjlyssg 回复小白么么哒: 你说的对，作者应该是在某些地方理解错了。
Spark的Graphx学习笔记--Pregel
sinat_35206416: 你好，这是求单源最短路径，怎么才能并行求多源路径。我尝试把他写成方法调用，然后把需要求得点对生产rdd,再map调用单源方法，但rdd不能嵌套rdd。另一方面，我感觉他肯定是可以并行的，因为求每一个结点单源路径和其他结点不相关，只是不知道怎么并行。急求！！！
Spark的Graphx学习笔记--Pregel
小白么么哒: 你好，不知道是我理解的有问题还是？我觉得graphx中最短路径是以汇点为中心的，等于说你途中的箭头都画的不对。从这句话来理解 val newAttr = incrementMap(edge.dstAttr) //这句就是对被指向的目的节点的值加一，而不是你博文中说的对源节点加一，希望你能同意我的观点，另外我试验了数据，重新编译了graphx,测出这个算法是算所有点到landmank中的点的最短距离 if (edge.srcAttr != addMaps(newAttr, edge.srcAttr)) Iterator((edge.srcId, newAttr)) else Iterator.empty 期待您的回复
Spark的Graphx学习笔记--Pregel
小白么么哒: 你好，不知道是我理解的有问题还是？我觉得graphx中最短路径是以汇点为中心的，等于说你途中的箭头都画的不对。从这句话来理解 val newAttr = incrementMap(edge.dstAttr) //这句就是对被指向的目的节点的值加一，而不是你博文中说的对源节点加一，希望你能同意我的观点，另外我试验了数据，重新编译了graphx,测出这个算法是算所有点到landmank中的点的最短距离 if (edge.srcAttr != addMaps(newAttr, edge.srcAttr)) Iterator((edge.srcId, newAttr)) else Iterator.empty 期待您的回复
基于GraphX实现的community detection算法--Label Propagation分析
BrotherDongDong: 国内第一个GraphX 交流群点击链接加入群【图计算,graphx,scala,mlib】：http://jq.qq.com/?_wv=1027&k=2DyIraM 群号： 498238384

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。