在hadoop中,在map
方法结束写出数据的时候需要对数据进行分区,具体分区实现由Partitioner
类提供,而Partitioner
类的加载逻辑如下:
partitions = jobContext.getNumReduceTasks();
if (partitions > 1) {
// 设置的分区数(即reduce task的个数)大于1,则使用设置的分区类
partitioner = (org.apache.hadoop.mapreduce.Partitioner<K,V>)
ReflectionUtils.newInstance(jobContext.getPartitionerClass(), job);
} else {
// 设置的分区数(即reduce task的个数)等于1,则生成一个只返回0的分区类
partitioner = new org.apache.hadoop.mapreduce.Partitioner<K,V>() {
@Override
public int getPartition(K key, V value, int numPartitions) {
return partitions - 1;
}
};
}
在代码中我们可以看到,如果分区数设为1,那么分片肯定会分到分片号为0的这个reduce task上,如果分片数大于1,才会使用自定义或者默认的分区类(HashPartitioner
)。