Hadoop中MapReduce的自定义分区、排序、分组

最新推荐文章于 2021-11-22 08:35:12 发布

EnterPine

最新推荐文章于 2021-11-22 08:35:12 发布

阅读量647

点赞数 1

分类专栏：操作系统 & 系统配置 # Hadoop & MR 文章标签： MapReduce 分组排序分区自定义

本文链接：https://blog.csdn.net/EnterPine/article/details/97135980

版权

分区：
在MR的job中，默认使用的分区类为：HashPartitioner.class
其源代码为：

public class HashPartitioner<K, V> extends Partitioner<K, V> {
    public HashPartitioner() {
    }

    public int getPartition(K key, V value, int numReduceTasks) {
        return (key.hashCode() & 2147483647) % numReduceTasks;
    }
}

可以看到 HashPartitioner.class 中得到分区号时，会对job设置的reduce任务数取余，这样的到0~numReduceTasks-1之间的正数作为分区号。

因此可以得到结论，HashPartitioner.class可以使相同Key一定在相同分区，同一分区里可能有不同Key。

自定义分区类：继承class Partitioner<KEY, VALUE> 类，重写getPartition方法。

public static class GlobleSortPartitioner extends Partitioner<IntWritable,Text>{
        @Override
        public int getPartition(IntWritable key,Text value,int numPartitions){
            int a = key.get();

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

EnterPine

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop中MapReduce的自定义分区、排序、分组

分区：在MR的job中，默认使用的分区类为：HashPartitioner.class其源代码为：public class HashPartitioner<K, V> extends Partitioner<K, V> { public HashPartitioner() { } public int getPartition(K key, ...
复制链接

扫一扫