Hadoop入门指南之分组实战

最新推荐文章于 2021-05-25 20:55:10 发布

我辈岂是蓬蒿人225

最新推荐文章于 2021-05-25 20:55:10 发布

阅读量253

点赞数

分类专栏：大数据文章标签： hadoop

本文链接：https://blog.csdn.net/shenjuntao520/article/details/113558817

版权

Hadoop系列文章索引

Hadoop入门指南之hdfs命令行使用.

Hadoop入门指南之MapReduce介绍

介绍完了Shuffle的分区、排序、规约之后，还有最后一个阶段，就是分组。

分组就是把符合同一规则的数据分在同一组，由同一个Reducer处理。

还是用库存的例子，现在是这样的一组数据：

p004,2021-01-05,9,1
p001,2021-01-08,2,1
p004,2021-01-01,5,2
p003,2021-01-07,3,1
p003,2021-01-01,8,1
p004,2021-01-05,2,2
p002,2021-01-03,3,3
p002,2021-01-07,6,5
p003,2021-01-03,6,2
p001,2021-01-09,6,1
p001,2021-01-05,3,2

这组数据的日期被打乱了，需求是要查出每个统计日期入库数最大的那条记录，相当于mysql的select date,pid,max(in_stock) from record group by date（大致是这个意思，好久没用mysql了，不一定对）。

那么这一次的K2可以是包含了日期、商品id、入库数的JavaBe

最低0.47元/天解锁文章

我辈岂是蓬蒿人225

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hadoop入门指南之分组实战

介绍完了Shuffle的分区、排序、规约之后，还有最后一个阶段，就是分组。分组就是把符合同一规则的数据分在同一组，由同一个Reducer处理。还是用库存的例子，现在是这样的一组数据：p004,2021-01-05,9,1p001,2021-01-08,2,1p004,2021-01-01,5,2p003,2021-01-07,3,1p003,2021-01-01,8,1p004,2021-01-05,2,2p002,2021-01-03,3,3p002,2021-01-07,6,
复制链接

扫一扫