mapreduce的partitioner分区、排序和combiner

最新推荐文章于 2024-03-27 18:21:13 发布

fengge18306

最新推荐文章于 2024-03-27 18:21:13 发布

阅读量1.4k

点赞数 2

本文链接：https://blog.csdn.net/fengge18306/article/details/105016230

版权

一、Partition分区

在MapReduce执行当中，有一个默认的步骤就是partition分区，分区主要的作用就是将相同的数据发送到同一个reduceTask里面去。在MapReduce中有一个抽象类叫做Partitioner，默认使用的实现类是HashPartitioner。

1、问题引出

要求将统计结果按照条件输出到不同文件中（分区）。比如：将统计结果按照手机归属地不同省份输出到不同文件中（分区）。

2、默认partitioner分区

public class HashPartitioner<K2, V2> implements Partitioner<K2, V2> {

  public void configure(JobConf job) {}

  /** Use {@link Object#hashCode()} to partition. */
  public int getPartition(K2 key, V2 value,
                          int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  }

}

默认分区是根据key的hashcode对reduceTask个数取模得到的，用户没法控制哪个key存储到哪个分区。

partition分区算法写死为：(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;

3、自定义Partitioner

（1）自定义类继承Partitioner，重写getPartition()方法

（2）在job驱动（main方法中），设置自定义Partitioner

job.setPartitionerClass(CustomerPartitioner.class)

（3）自定义Partition后，根据自定义Partitioner的逻辑设置相应数量的ReduceTask

job.setNumReduceTasks(6)

二、mapreduce当中的排序

排序是MapReduce框架中最重要的操作之一。MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序，而不管逻辑上是否需要。默认排序是按照字典顺序排序（即abcd排序），且实现该排序的方法是快速排序。

对于MapTask，它会将处理的结果暂时放到环形缓冲区中，当环形缓冲区使用率达到一定阈值后（80%），再对缓冲区中的数据进行一次快速排序，并将这些有序数据溢写到磁盘上，而当数据处理完毕后，它会对磁盘上所有文件进行归并排序。

对于ReduceTask，它从每个MapTask上远程拷贝相应的数据文件，如果文件大小超过一定阈值，则溢写磁盘上，否则存储在内存中。如果磁盘上文件数目达到一定阈值，则进行一次归并排序以生成一个更大文件；如果内存中文件大小或者数目超过一定阈值，则进行一次合并后将数据溢写到磁盘上。当所有数据拷贝完毕后，ReduceTask统一对内存和磁盘上的所有数据进行一次归并排序。

各种排序的分类：

1、部分排序

MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部有序