Aprior 算法

最新推荐文章于 2020-11-18 13:52:48 发布

SZU_Hadooper

最新推荐文章于 2020-11-18 13:52:48 发布

阅读量718

点赞数 2

分类专栏： Hadoop 数据挖掘文章标签： mapreduce Apriori hadoop 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SZU_Hadooper/article/details/54177622

版权

Hadoop 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

Apriori 算法：（hadoop中实现）

第一步：统计项的频度（用一个MR统计出来）

假设是一个矩阵

U1 app1 , app3

U2 app1 , app2 , app3

U3 app2 , app3

把矩阵看成一行行的向量

U1<app1 , app3>

U2<app1 , app2 , app3>

U3<app2 , app3>

装置矩阵

<app1,U1><app3,U1>

<app1,U2><app2,U2><app3,U2>

<app2,U3><app3,U3>

key:app vaule:U

放到Reduce统计

如： app1 ,<U1,U2> 输出==>app1:2 app2:3 app3:2

第二步：根据最小支持度进行筛选假设最小支持度是3

第三步：根据上面的表生成候选集

第四步：对每个候选对在矩阵的每一行去比较（数据库）看看它的频度

第五步：对比最小支持度筛选出来

第六步：继续生成3项频繁集

利用MR生成(本人构思不推荐)

cd:5 ce:3 ==> c:1 d:1 c:1 e:1 ==> c:2 d:1 e:1 ==>1:c 1:d 1:e==>1:<c,d,e>

对value生成3项

第七步：继续往下直到没有（K+1）频繁项

想法1：从k=1找频繁集直到到达目标k
想法2：从所有项集中找出所有的包含k个元素的子集，统计支持度和置信度（更好和容易实现

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。