Mapreduce中的分区Partitioner

最新推荐文章于 2024-03-27 18:21:13 发布

我们始终是路人

最新推荐文章于 2024-03-27 18:21:13 发布

阅读量512

点赞数

分类专栏： Hadoop 文章标签： mapreduce

本文链接：https://blog.csdn.net/a1837634447/article/details/78355093

版权

Hadoop 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Mapreduce中会将map输出的kv对，按照相同key分组，然后分发给不同的reducetask
默认的分发规则为：根据key的hashcode%reducetask数来分发
所以：如果要按照我们自己的需求进行分组，则需要改写数据分发（分组）组件Partitioner
自定义一个CustomPartitioner继承抽象类：Partitioner
然后在job对象中，设置自定义partitioner： job.setPartitionerClass(CustomPartitioner.class)


import java.util.HashMap;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

/**
 * K2  V2  对应的是map输出kv的类型
 * @author
 *
 */
public class ProvincePartitioner extends Partitioner<Text, FlowBean>{

    public static HashMap<String, Integer> proviceDict = new HashMap<String, Integer>();
    static{
        proviceDict.put("136", 0);
        proviceDict.put("137", 1);
        proviceDict.put("138", 2);
        proviceDict.put("139", 3);
    }



    @Override
    public int getPartition(Text key, FlowBean value, int numPartitions) {
        String prefix = key.toString().substring(0, 3);
        Integer provinceId = proviceDict.get(prefix);

        return provinceId==null?4:provinceId;
    }



}

//指定我们自定义的数据分区器
        job.setPartitionerClass(ProvincePartitioner.class);
        /**
         * 设置reduce task的数量，要跟AreaPartitioner返回的partition个数匹配
         * 如果reduce task的数量比partitioner中分组数多，就会产生多余的几个空文件
         * 如果reduce task的数量比partitioner中分组数少，就会发生异常，因为有一些key没有对应reducetask接收
         * (如果reduce task的数量为1，也能正常运行，所有的key都会分给这一个reduce task)
         * reduce task 或 map task 指的是，reuder和mapper在集群中运行的实例
         */
        //同时指定相应“分区”数量的reducetask
        job.setNumReduceTasks(5);