hadoop之Partitioner详解

最新推荐文章于 2022-10-27 18:04:02 发布

沐雨金鳞

最新推荐文章于 2022-10-27 18:04:02 发布

阅读量1.6k

点赞数 1

分类专栏：大数据大数据文章标签： hadoop之Partitioner详解

本文链接：https://blog.csdn.net/qq_38262266/article/details/79186015

版权

大数据同时被 2 个专栏收录

50 篇文章 0 订阅

订阅专栏

大数据

32 篇文章 3 订阅

订阅专栏

Partitioner 的作用是对 Mapper 产生的中间结果进行分片，
以便将同一分组的数据交给同一个 Reducer 处理，它直接影响 Reduce 阶段的负载均衡。

Map阶段总共五个步骤

这里写图片描述

step1.3就是一个分区操作

Mapper最终处理的键值对<key, value>，是需要送到Reducer去合并的，合并的时候，
有相同key的键/值对会送到同一个Reducer节点中进行归并。

哪个key到哪个Reducer的分配过程，是由Partitioner规定的。
在一些集群应用中，例如分布式缓存集群中，缓存的数据大多都是靠哈希函数来进行数据的均匀分布的，在Hadoop中也不例外。

Hadoop内置Partitioner

MapReduce的使用者通常会指定Reduce任务和Reduce任务输出文件的数量（R）。
用户在中间key上使用分区函数来对数据进行分区，之后在输入到后续任务执行进程。
一个默认的分区函数式使用hash方法（比如常见的：hash(key) mod R）进行分区。
hash方法能够产生非常平衡的分区。

Hadoop中自带了一个默认的分区类HashPartitioner，
它继承了Partitioner类，提供了一个getPartition的方法

/** Partition keys by their {@link Object#hashCode()}. */
public class HashPartitioner<K, V> extends Partitioner<K, V> {

  /** Use {@link Object#hashCode()} to partition. */
  public int getPartition(K key, V value,int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  } 
}

将key均匀布在Reduce Tasks上
(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks; 

如果Key为Text的话，Text的hashcode方法跟String的基本一致，都是采用的Horner公式计算，得到一个int整数。
但是，如果string太大的话这个int整数值可能会溢出变成负数，所以和整数的上限值Integer.MAX_VALUE
（即0111111111111111）进行与运算，然后再对reduce任务个数取余，这样就可以让key均匀分布在reduce上 。

一般我们都会使用默认的分区函数HashPartitioner
当然自己可以定制自定制Partitioner

自定义LiuPartitioner框架

 public static class Self_Partitioner extends Partitioner<数据类型1, 数据类型2> {
        @Override
        public int getPartition(数据类型1 key, 数据类型2 value, int numPartitions) {

            /*分两个区，长度大于11和小于11的
            实现不同的长度不同的号码分配到不同的reduce task中
            int numLength = key.toString().length();
            if (numLength == 11) return 0;
            else   return 1;
           */ 

        }
    }

    job.setPartitionerClass(Self_Partitioner.class);
    job.setNumReduceTasks(2);

小结：分区Partitioner主要作用在于以下两点
 1、根据业务需要，产生多个输出文件
 2、多个reduce任务并发运行，提高整体job的运行效率

Hadoop学习笔记—9.Partitioner与自定义Partitioner

沐雨金鳞

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录