Hadoop入门指南之分组实战

Hadoop系列文章索引

Hadoop入门指南之HDFS介绍

Hadoop入门指南之Linux环境搭建

Hadoop入门指南之Linux软件安装

Hadoop入门指南之Hadoop安装

Hadoop入门指南之hdfs命令行使用.

Hadoop入门指南之MapReduce介绍

Hadoop入门指南之统计库存实战

Hadoop入门指南之分区、规约实战

Hadoop入门指南之排序实战

Hadoop入门指南之分组实战

Hadoop入门指南之表连接操作

Hadoop入门指南之yarn介绍

 

介绍完了Shuffle的分区、排序、规约之后,还有最后一个阶段,就是分组。

分组就是把符合同一规则的数据分在同一组,由同一个Reducer处理。

还是用库存的例子,现在是这样的一组数据:

p004,2021-01-05,9,1
p001,2021-01-08,2,1
p004,2021-01-01,5,2
p003,2021-01-07,3,1
p003,2021-01-01,8,1
p004,2021-01-05,2,2
p002,2021-01-03,3,3
p002,2021-01-07,6,5
p003,2021-01-03,6,2
p001,2021-01-09,6,1
p001,2021-01-05,3,2

这组数据的日期被打乱了,需求是要查出每个统计日期入库数最大的那条记录,相当于mysql的select date,pid,max(in_stock) from record  group by date(大致是这个意思,好久没用mysql了,不一定对)。

那么这一次的K2可以是包含了日期、商品id、入库数的JavaBe

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值