Hadoop 中的 Partitioner 过程

最新推荐文章于 2024-08-18 08:42:07 发布

andrewgb

最新推荐文章于 2024-08-18 08:42:07 发布

阅读量1.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： hadoop Partition MapReduce 文章标签： hadoop 分区编程

本文链接：https://blog.csdn.net/andrewgb/article/details/49405981

hadoop 同时被 3 个专栏收录

36 篇文章

订阅专栏

MapReduce

15 篇文章

订阅专栏

Partition

1 篇文章

订阅专栏

本文介绍Hadoop中的Partitioner阶段如何对Map输出数据进行分区处理，包括自定义分区规则的方法及实例，以实现不同运营商的数据分别输出。

要点

hadoop 中的 Partitioner 阶段针对 Map 阶段输出的数据进行分区处理。Partitioner 对 key 进行分区处理，使拥有不同的 key 的数据被分到不同的 Reduce 中处理；
其处理位置是在节点本身位置上；
其处理意义在于可以在 Reduce 之前进行一次分类，提高效率。可以自定义 key 的分区规则，如数据文件包含不同的省份，而输出的要求是每个省份输出一个文件；
在没有自定义 Partitioner 阶段时，框架本身有默认的HashPartitioner；

自定义 Partitioner 过程：

继承抽象类 Partitioner，实现自己的 getPartitioner() 方法；
通过 job.setPartitionerClass() 来设置自定义的 Partitioner 类；
通过job.setNumReduceTasks()来设置 Reduce 的数量，最好是分来几个区就设置几个 Reduce 。

例子

假设：
139 联通号段
138 移动号段
159 电信号段
背景：
要求 Reduce 产生的数据文件根据不同运营商而分成不同的独立文件，例如，所有联通号段的处理结果要在一个独立文件中，而移动的号段的处理结果要在一个独立的文件中，同样电信的处理结果也是要在一个独立的文件中。
处理过程：
通过 Map 阶段送过来的 Key 值进行提取对分区有用的数据（号码前三位），然后判断对应 Key 属于哪个分区，然后返回分区号即可。这样对应的 Key 就会进入相同的分区中进行处理，然后生成的结果数据在一个文件中。

public static class ServiceProviderPartitioner extends Partitioner<Text, DataBean>{

        private static Map<String, Integer> providerMap = new HashMap<String, Integer>();

        static {
            providerMap.put("139", 1);
            providerMap.put("138", 2);
            providerMap.put("159", 3);
        }

        @Override
        public int getPartition(Text key, DataBean value, int number) {
            String telNo = key.toString();
            String pcode = telNo.substring(0, 3);
            Integer p = providerMap.get(pcode);
            if(p == null){
                p = 0;
            }
            return p;
        }

    }