MapReduce之自定义Partitioner

概述

Map方法之后, 数据首先进入到分区方法, 把数据标记好分区, 然后把数据发送到环形缓冲区; reduce的并行数量以及输出文件的个数, 由分区数决定. 

默认分区是根据key的hashCode对ReduceTasks个数取模得到.
format,png

自定义步骤

1.自定义类继承Partitioner, 重写getPartion方法
format,png
2. 在Job驱动中, 设置自定义Partitioner
format,png
3. 自定义Partititon后, 要根据自定义的Partioner的逻辑设置相应数量的ReducerTask
   format,png

Reduce数量与分区数量的匹配

  • 如果reduce数量大于分区数, 则会产生空白输出文件part-r-000xx
  • 如果reduce数量小于分区数, 则会一部分数据无处安放, 会抛异常
  • 如果reduce数量=1, 最终输出一个文件
注意: 分区号必须从零开始, 逐一累加.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值