MapReduce自定义分区partition的作用和用法

最新推荐文章于 2020-12-29 00:12:30 发布

RashaunHan

最新推荐文章于 2020-12-29 00:12:30 发布

阅读量1.4k

点赞数

分类专栏：大数据 Java类 MapReduce

本文链接：https://blog.csdn.net/u012580143/article/details/84615507

版权

大数据同时被 3 个专栏收录

46 篇文章 1 订阅

订阅专栏

MapReduce

9 篇文章 1 订阅

订阅专栏

Java类

8 篇文章 1 订阅

订阅专栏

默认分区数量为

key.hash%reducetask的个数

自定义分区

自己定义的

自定义分区很简单，我们只需要继承抽象类Partitioner，重写getPartition方法即可，另外还要给任务设置分区：

job.setPartitionerClass()， job.setNumReduceTasks();

就可以了。

注意：

自定义分区的数量需要和reduce task的数量保持一致。

但是为1也或者大于reducetask也可以，为1的时候所有的数据放到一起，大于的时候则按照分区编号来分

例子

import org.apache.hadoop.mapreduce.Partitioner;
public class JiduPartitioner<K, V> extends Partitioner<K, V>{
    @Override
    //自定义partition的数量需要和reduce task数量保持一致
    public int getPartition(K key, V value, int numPartitions) {
        String dname=key.toString();
        switch(dname)
        {
        case "研发部门":return 0;
        case "测试部门":return 1;
        case "硬件部门":return 2;
        case "销售部门":return 3;
        }
        return 4;
    }
}

RashaunHan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
MapReduce自定义分区partition的作用和用法

默认分区数量为 key.hash%reducetask的个数自定义分区自己定义的自定义分区很简单，我们只需要继承抽象类Partitioner，重写getPartition方法即可，另外还要给任务设置分区：job.setPartitionerClass()， job.setNumReduceTasks();就可以了。注意：自定义分区的数量...
复制链接

扫一扫