Partioner解析

Partioner可以说是MapReduce最神秘的核心设计之一,我们知道map函数处理完成后通过Context对象的write(K,V)函数输出结果,但是这个结果并不是直接写入内存缓冲区,而是有一个Collector对象进行收集。这里可以对map中的context.write(K,V)进一步分析,通过分析可以知道该write()方法是由TaskInputOutputContext对象调用了output.write(key, value)函数提供的,其又继续调用了RecordWriter.write()方法,最终这个RecordWriter的具体实现就是NewOutputCollector收集类器类(MapTask.java中的私有类,对应于有Reduce任务的情况)或者NewDirectOutputCollector收集器类(对应于Reduce数目为0),CollectorMapTask的内部类,也就是说map的输出最终是通过这个类的collector.collect(K,V,partition)收集的,partition是对应的reduce分区号,是Partioner的返回值,也就是应该传输到哪个redcue节点处理的.

 

 

HashPartitioner是处理Mapper任务输出的,getPartition()方法有三个形参,源码中keyvalue分别指的是Mapper任务的输出,numReduceTasks指的是设置的Reducer任务数量,默认值是1。那么任何整数与1相除的余数肯定是0。也就是说getPartition()方法的返回值总是0。也就是Mapper任务的输出总是送给一个Reducer任务,最终只能输出到一个文件中。

 

据此分析,如果想要最终输出到多个文件中,在Mapper任务中对数据应该划分到多个区中。那么,我们只需要按照一定的规则让getPartition()方法的返回值是0,1,2,3…即可。

 

大部分情况下,我们都会使用默认的分区函数,但有时我们又有一些,特殊的需求,而需要定制Partition来完成我们的业务

 

 

控制不同的数据到不同的分区。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值