MapReduce的Partition 分区

最新推荐文章于 2024-06-19 21:56:24 发布

Hub-Link

最新推荐文章于 2024-06-19 21:56:24 发布

阅读量565

点赞数

分类专栏： Hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/NC_NE/article/details/120797378

版权

本文详细介绍了MapReduce的Partitioner分区机制，包括默认的HashPartitioner工作方式，以及如何自定义Partitioner以实现特定的分区逻辑。通过实例展示了如何根据手机号开头进行分区，并分析了源码执行流程，揭示了分区发生在MapTask的Collect阶段。

摘要由CSDN通过智能技术生成

一、Partitioner分区位置

从MapRedece框架原理里面我们发现在进入环形缓冲区有一个分区的操作，如图

二、Partitioner分区机制

源码默认采用HashPartitioner，源码如下

public class HashPartitioner<K2, V2> implements Partitioner<K2, V2> {

  public void configure(JobConf job) {}

  /** Use {@link Object#hashCode()} to partition. */
  public int getPartition(K2 key, V2 value,
                          int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  }

}

默认分区是根据key的hashCode对ReduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区。

三、自定义Partitioner分区

3.1 重点步骤：

（1）自定义类继承Partitioner，重写getPartition()方法

最低0.47元/天解锁文章

Hub-Link

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MapReduce的Partition 分区

一、Partitioner分区位置从MapRedece框架原理里面我们发现在进入环形缓冲区有一个分区的操作，如图二、Partitioner分区机制源码默认采用HashPartitioner，源码如下public class HashPartitioner<K2, V2> implements Partitioner<K2, V2> { public void configure(JobConf job) {} /** Use {@link ...
复制链接

扫一扫

专栏目录