Frequent Pattern挖掘之五（MapReduce框架下的FP Growth算法详解下篇）（转）

最新推荐文章于 2019-10-14 14:56:54 发布

weixin_33834137

最新推荐文章于 2019-10-14 14:56:54 发布

阅读量105

点赞数

文章标签：大数据

接着前面的博客Frequent Pattern之四继续分析。

结果聚合

请看伪码如下：

这个mapreduce实际上完成了一个index的功能，把上一步的结果进行了一个处理，它把上一步得到的frequent pattern按照item做了索引，这要得到的最后结果就是某一个item对应着一组frequent pattern。它把这些frequent pattern放在一个堆里，便于按频率的高低顺序进行访问。伪码中的if-else其实就是把frequent pattern插入堆，如果堆满了，和频率最小的那个节点（也就是根节点）比较一下，如果新节点的值大的话，删掉根节点，插入新节点。这样做的目的是始终保持堆里存储着某一item频率最高的top K个frequent pattern。

这就是map reduce框架下FP Growth算法的具体实现。在apache的开源项目mathout中它已经得到了实现，大家可以直接使用。

最后再谈一点个人意见，这个FP Growth Mapreduce实现在对F_list进行分组时可以再考虑一些负载均衡的策略，因为不采用任何策略的话，有可能会导致频率高的item都在一组，那么发射到这一组所对应机器上transaction就会得特别多，处理压力也会特别大，而别的机器上任务却过于轻松，这对整个系统效率的提升是很不利的。如果加入一定的策略考量，把频率高的item均匀的分配到各台机器上，将会使效率更加提高。

[1]PFP: ParallelFP-Growth for Query Recommendation

weixin_33834137

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Frequent Pattern挖掘之五（MapReduce框架下的FP Growth算法详解下篇）（转）

接着前面的博客Frequent Pattern之四继续分析。结果聚合请看伪码如下：这个mapreduce实际上完成了一个index的功能，把上一步的结果进行了一个处理，它把上一步得到的frequent pattern按照item做了索引，这要得到的最后结果就是某一个item对应着一组frequent pattern。它把这些frequent pattern放在一个堆里，便于按频率的高低...
复制链接

扫一扫

weixin_33834137 CSDN认证博客专家 CSDN认证企业博客

码龄8年

162: 原创

-: 周排名

199万+: 总排名

138万+: 访问

: 等级

7830: 积分

4767: 粉丝

251: 获赞

42: 评论

1744: 收藏

私信

关注

热门文章

最新评论

学习笔记-计算广告核心问题
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)增加条理清晰的目录；(3)提升标题与正文的相关性。
Karma Police - Radiohead
织芜: 我居然可以在csdn上看见Radiohead
（原创）C++11改进我们的程序之简化我们的程序（七）
又叫我: auto tp = return std::tie(1, "aa", 2); 不是，题主你确定这行代码能实现吗？且不说后面的右值，这里的return是干嘛的？
Spring Boot统一异常处理最佳实践
Swordwhisper: 插个眼写的不错
经典SQL练习题(MySQL版)
听话的睿睿: 最上面的第二个自动编号那个，语法错误吧？group by 后面的字段必须包含select 后面的min(自动编号)/自动编号啊？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。