Mapreduce中的分区Partitioner

Mapreduce中会将map输出的kv对,按照相同key分组,然后分发给不同的reducetask
默认的分发规则为:根据key的hashcode%reducetask数来分发
所以:如果要按照我们自己的需求进行分组,则需要改写数据分发(分组)组件Partitioner
自定义一个CustomPartitioner继承抽象类:Partitioner
然后在job对象中,设置自定义partitioner: job.setPartitionerClass(CustomPartitioner.class)


import java.util.HashMap;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

/**
 * K2  V2  对应的是map输出kv的类型
 * @author
 *
 */
public class ProvincePartitioner extends Partitioner<Text, FlowBean>{

    public static HashMap<String, Integer> proviceDict = new HashMap<String, Integer>();
    static{
        proviceDict.put("136", 0);
        proviceDict.put("137", 1);
        proviceDict.put("138", 2);
        proviceDict.put("139", 3);
    }



    @Override
    public int getPartition(Text key, FlowBean value, int numPartitions) {
        String prefix = key.toString().substring(0, 3);
        Integer provinceId = proviceDict.get(prefix);

        return provinceId==null?4:provinceId;
    }



}
//指定我们自定义的数据分区器
        job.setPartitionerClass(ProvincePartitioner.class);
        /**
         * 设置reduce task的数量,要跟AreaPartitioner返回的partition个数匹配
         * 如果reduce task的数量比partitioner中分组数多,就会产生多余的几个空文件
         * 如果reduce task的数量比partitioner中分组数少,就会发生异常,因为有一些key没有对应reducetask接收
         * (如果reduce task的数量为1,也能正常运行,所有的key都会分给这一个reduce task)
         * reduce task 或 map task 指的是,reuder和mapper在集群中运行的实例
         */
        //同时指定相应“分区”数量的reducetask
        job.setNumReduceTasks(5);
相关推荐
©️2020 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页