Hadoop系列文章索引
介绍完了Shuffle的分区、排序、规约之后,还有最后一个阶段,就是分组。
分组就是把符合同一规则的数据分在同一组,由同一个Reducer处理。
还是用库存的例子,现在是这样的一组数据:
p004,2021-01-05,9,1
p001,2021-01-08,2,1
p004,2021-01-01,5,2
p003,2021-01-07,3,1
p003,2021-01-01,8,1
p004,2021-01-05,2,2
p002,2021-01-03,3,3
p002,2021-01-07,6,5
p003,2021-01-03,6,2
p001,2021-01-09,6,1
p001,2021-01-05,3,2
这组数据的日期被打乱了,需求是要查出每个统计日期入库数最大的那条记录,相当于mysql的select date,pid,max(in_stock) from record group by date(大致是这个意思,好久没用mysql了,不一定对)。
那么这一次的K2可以是包含了日期、商品id、入库数的JavaBe