1、HashPartitioner(Hadoop自带的默认分区)
HashPartitioner源码如下:
public class HashPartitioner<K2, V2> implements Partitioner<K2, V2> {
public void configure(JobConf job) {}
/** Use {@link Object#hashCode()} to partition. */
public int getPartition(K2 key, V2 value,
int numReduceTasks) {
// key的hash值与integer的最大值取与然后对ReduceTask的个数取余
return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}
}
hash的好处是可以很key的分布更加随机,但是这样会将一些不同的key放在同一个分区中,这并不是我们所期望的
2.自定义类继承Partitioner,重写getPartition(K key, V value, int numReduceTasks)方法
package com.atguigu.demomptest.service.partitioner;
import com.atguigu.demomptest.entity.FlowBean;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;import java.util.HashMap;
import java.util.Map;/**
* @author sun
* @description:
* @time: 2021/3/27 14:29
*/
public class CustomPartitioner extends Partitioner<Text, FlowBean> {
private static Map<String, Integer> map = new HashMap<>();// 此处我们将数据写死,实际开发中我们应该从对应的数据源中获取数据然后存储在缓存中(Redis)
static {
map.put("138", 0);
map.put("139", 1);
map.put("158", 2);
map.put("159", 3);
}@Override
public int getPartition(Text text, FlowBean flowBean, int i) {
// 获取手机号码的前3位 138
String prefix = text.toString().substring(0, 3);
return map.containsKey(prefix) ? map.get(prefix) : 4;
}
}
3.在job驱动类中设置自定义Partitioner
job.setPartitionerClass(CustomPartitioner.class);
4.设置相应数量的ReduceTask
job.setNumReduceTasks(5);
5.注意点
1.如果ReduceTask的数量>getPartition的数量,则会产生几个空的输出文件part-r-000xx;
2.如果ReduceTask的数量等于1,则不管MapTask端输出多少分区文件,最终结果都会交给这一个ReduceTask,最终也就只会产生一个结果文件part-r-00000;
3.如果1<reduceTask的数量<getPartition的结果数,则有一部分分区数据无处安放,会报错,Exception。
4.分区号必须从零开始,逐一累加
输出结果
partitioner的作用就是用来对Map之后的数据做分区处理操作
例如:假设自定义分区数为5,则
- job.setlNlurmReduceTask(1);会正常运行,只不过会产生一个输出文件
- job.setlNlunReduceTask(2),会报错
- job.setNumReduceTasks(6);大于5,程序会正常运行,会产生空文件