Mapreduce中会将map输出的kv对,按照相同key分组,然后分发给不同的reducetask
默认的分发规则为:根据key的hashcode%reducetask数来分发
所以:如果要按照我们自己的需求进行分组,则需要改写数据分发(分组)组件Partitioner
自定义一个CustomPartitioner继承抽象类:Partitioner
然后在job对象中,设置自定义partitioner: job.setPartitionerClass(CustomPartitioner.class)
import java.util.HashMap;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;
/**
* K2 V2 对应的是map输出kv的类型
* @author
*
*/
public class ProvincePartitioner extends Partitioner<Text, FlowBean>{
public static HashMap<String, Integer> proviceDict = new HashMap<String, Integer>();
static{
proviceDict.put("136", 0);
proviceDict.put("137", 1);
proviceDict.put("138", 2);
proviceDict.put("139", 3);
}
@Override
public int getPartition(Text key, FlowBean value, int numPartitions) {
String prefix = key.toString().substring(0, 3);
Integer provinceId = proviceDict.get(prefix);
return provinceId==null?4:provinceId;
}
}
//指定我们自定义的数据分区器
job.setPartitionerClass(ProvincePartitioner.class);
/**
* 设置reduce task的数量,要跟AreaPartitioner返回的partition个数匹配
* 如果reduce task的数量比partitioner中分组数多,就会产生多余的几个空文件
* 如果reduce task的数量比partitioner中分组数少,就会发生异常,因为有一些key没有对应reducetask接收
* (如果reduce task的数量为1,也能正常运行,所有的key都会分给这一个reduce task)
* reduce task 或 map task 指的是,reuder和mapper在集群中运行的实例
*/
//同时指定相应“分区”数量的reducetask
job.setNumReduceTasks(5);