Hadoop hadoop的二次排序的思想

eg.
输入:     输出:
A 1      A 1
B 3      A 2
B 1      A 4
C 5      B 1
A 4      B 3
A 2      C 5

在这里插入图片描述

关键点
  自定义,结合数据类型
    作为map()函数输出key
  自定义分区partition
    按照第一个字段进行分区
  自定义分组grouping
    按照第一个子弹进行分组

文字整理
  -》将需要排序的字段封装成一个对象作为key,使用自定义数据类型可实现

  -》通过MapReduce自带shuffle阶段,对key的第一个字段和第二个字段分别进行排序

  -》由于shuffle中分区及分组默认按照key进行的,所以在分区和分组的时候,需要自定义分区和分组,实现按照key中的第一个字段进行分区和分组

  -》确保在分区阶段,第一个字段相同的key,有同一个reduce处理

  -》确保在分组阶段,第一个字段相同的key分到同一组吧

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值