大数据学习之Hadoop——09Partitoner分区和Combiner分区

Partitioner分区部分转载的是: https://www.cnblogs.com/qingyunzong/p/8584379.html

一. Partitioner分区

1. Partitioner的作用:

进行MapReduce计算时,有时候需要把最终的输出数据分到不同的文件中,我们知道最终的输出数据是来自于Reducer任务。那么,如果要得到多个文件,意味着有同样数量的Reducer任务在运行。Reducer任务的数据来自于Mapper任务,也就说Mapper任务要划分数据,对于不同的数据分配给不同的Reducer任务运行。Mapper任务划分数据的过程就称作Partition。负责实现划分数据的类称作Partitioner。

2. Partitioner源码
package org.apache.hadoop.mapreduce.lib.partition;

import org.apache.hadoop.mapreduce.Partitioner;

/** Partition keys by their {@link Object#hashCode()}. */
public class HashPartitioner<K, V> extends Partitioner<K, V> {

  /** Use {@link Object#hashCode()} to partition. */
  public int getPartition(K key, V value,
                          int numReduceTasks) {
    //默认使用key的hash值与上int的最大值,避免出现数据溢出 的情况
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  }

}
3. getPartition()三个参数分别是什么?

HashPartitioner是处理Mapper任务输出的,getPartition()方法有三个形参,源码中key、value分别指的是Mapper任务的输出 [标注: Partitioner的key, value类型和map端输出的key, value类型一致],numReduceTasks指的是设置的Reducer任务数量,默认值是1。那么任何整数与1相除的余数肯定是0。也就是说getPartition(…)方法的返回值总是0。也就是Mapper任务的输出总是送给一个Reducer任务,最终只能输出到一个文件中。

据此分析,如果想要最终输出到多个文件中,在Mapper任务中对数据应该划分到多个区中。那么,我们只需要按照一定的规则让getPartition(…)方法的返回值是0,1,2,3…即可。

4. 自定义Partitioner

大部分情况下,我们都会使用默认的分区函数,但有时我们又有一些,特殊的需求,而需要定制Partition来完成我们的业务

  1. 代码

    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.mapreduce.Partitioner;
    // Partitioner<IntWritable, IntWritable> 的key, value 类型和map的输出key, value类型一致
    public class FivePartitioner extends Partitioner<IntWritable, IntWritable>{
    
        /**
         * 我们的需求: 按照能否被5除尽去分区
         * 
         * 1、如果除以5的余数是0, 放在0号分区
         * 2、如果除以5的余数不是0, 放在1分区
         */
        @Override
        public int getPartition(IntWritable key, IntWritable value, int numPartitions) {
            
            int intValue = key.get();
            
            if(intValue % 5 == 0){
                return 0;
            }else{
                return 1;
            }    
        }
    }
    
  2. 在运行Mapreduce程序时,只需在主函数里加入如下两行代码即可

    // 指定Partitioner类
    job.setPartitionerClass(FivePartitioner.class);
    // 设置分区数, 和Partitioner类中设置的分区数保持一致
    // Partition分区数和ReduceTaskes数目一致
    job.setNumReduceTasks(2);
    

二. Combiner分区

Combiner分区部分转载的是:
https://www.cnblogs.com/qingyunzong/p/8584509.html

1. 对combiner的理解
  1. combiner其实属于优化方案,由于带宽限制,应该尽量map和reduce之间的数据传输数量。它在Map端把同一个key的键值对合并在一起并计算,计算规则与reduce一致,所以combiner也可以看作特殊的Reducer。
  2. 执行combiner操作要求开发者必须在程序中设置了combiner(程序中通过job.setCombinerClass(myCombine.class)自定义combiner操作)。
  3. Combiner组件是用来做局部汇总的,就在mapTask中进行汇总;Reducer组件是用来做全局汇总的,最终的,最后一次汇总。
2. 哪里使用combiner?
  1. map输出数据根据分区排序完成后,在写入文件之前会执行一次combine操作(前提是作业中设置了这个操作);
  2. 如果map输出比较大,溢出文件个数大于3(此值可以通过属性min.num.spills.for.combine配置)时,在merge的过程(多个spill文件合并为一个大文件)中前还会执行combiner操作;
3. 注意事项

不是每种作业都可以做combiner操作的,只有满足以下条件才可以:

  1. Combiner 只能对 一个mapTask的中间结果进行汇总
  2. 如果想使用Reducer直接充当Combiner,那么必须满足: Reducer的输入和输出key-value类型是一致的。
    1. 处于两个不同节点的mapTask的结果不能combiner到一起

    2. 处于同一个节点的两个MapTask的结果不能否combiner到一起

    3. 求最大值、求最小值、求和、去重时可直接使用Reducer充当Combiner,但是求平均值时不能直接使用Reducer充当Combiner。

      原因:对2组值求平均值   
      2 3 4 5 6 == 20 / 5 == 4   
      4 5 6 == 15 / 3 == 5
      结果: 4.5


      20+15 / 5+3 = 35 / 8
      结果: 4.375

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值