转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/40184581
最近几天一直在看hadoop相关的书籍,目前稍微有点感觉,自己就仿照着WordCount程序自己编写了一个统计关联商品。
需求描述:
根据超市的销售清单,计算商品之间的关联程度(即统计同时买A商品和B商品的次数)。
数据格式:
超市销售清单简化为如下格式:一行表示一个清单,每个商品采用 "," 分割,如下图所示:
需求分析:
采用hadoop中的mapreduce对该需求进行计算。
map函数主要拆分出关联的商品,输出结果为 key为商品A,value为商品B,对于第一条三条结果拆分结果如下图所示:
这里为了统计出和A、B两件商品想关联的商品,所以商品A、B之间的关系输出两条结果即 A-B、B-A。
reduce函数分别对和商品A相关的商品进行分组统计,即分别求value中的各个商品出现的次数,输出结果为key为商品A|商品B,va

本文介绍了如何使用Hadoop MapReduce实现关联商品统计。通过分析超市销售清单,拆分商品并计算同时购买A和B商品的次数。Map阶段将商品A和B的关系输出,Reduce阶段对商品A相关的商品进行分组计数,最终输出商品组合及其出现次数。
最低0.47元/天 解锁文章
1156

被折叠的 条评论
为什么被折叠?



