Hadoop系列学习–Partitioner内置分区与Partitioner自定义分区

最新推荐文章于 2022-02-13 22:09:51 发布

樱木乐

最新推荐文章于 2022-02-13 22:09:51 发布

阅读量793

点赞数

分类专栏： Hadoop 文章标签： hadoop partition

本文链接：https://blog.csdn.net/hanweida/article/details/45744781

版权

本文介绍了MapReduce中的Partitioner功能，强调了其在优化数据分布和提升处理效率中的作用。默认使用HashPartitioner，但有时需要自定义Partitioner以满足特定业务需求，如按日志长度分配到不同Reduce任务。文章提供了自定义Partitioner的示例代码，用于区分11位数和非11位数的日志。

摘要由CSDN通过智能技术生成

Hadoop系列学习–Partitioner内置分区与Partitioner自定义分区

MapReduce的编程灵活性很高，其中Partitioner分区函数的作用也很重要。

Partitioner分区函数的作用：

根据业务的需求，灵活的根据业务输出多个日志
多个Reduce并发处理日志，提高工作运行的效率
使数据能够均匀分布在reduce上进行操作，避免产生热点区域。

**
默认的Partitioner分区
**
默认的partitioner是HashPartitioner,他对每条记录的键进行哈希操作以决定该记录应该属于哪个分区。每个分区对应一个reducer任务，所以分区数等于作业的reducer的个数。

public class HashPartitioner<K,V> extends Partitioner<K,V>{
   
        @Override
        public int getPartition(K k, V v, int numPartitions) {
            return (k.hashCode() & Integer.MAX_VALUE) % numPartitions; 
        }
    }

自定义Partitioner分区

默认分区具有限制性，由于它是根据HashCode的值去分区，而有一些业务，例如我们要将日志的11位数与不是11位数的输出日志分开。例如：

log1:
1111111111 aaa
1111111111 aaa1
1111111111 aaa14
1111111111 aaa2
11111111112 aaa3

log2:
222222 aaa
222222 aaa1
222222 aaa14
222222 aaa2
2222222 aaa