Hadoop之Partitioner分区

1、HashPartitioner(Hadoop自带的默认分区)

HashPartitioner源码如下:

public class HashPartitioner<K2, V2> implements Partitioner<K2, V2> {

  public void configure(JobConf job) {}

  /** Use {@link Object#hashCode()} to partition. */
  public int getPartition(K2 key, V2 value,
                          int numReduceTasks) {
    // key的hash值与integer的最大值取与然后对ReduceTask的个数取余
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  }
}

hash的好处是可以很key的分布更加随机,但是这样会将一些不同的key放在同一个分区中,这并不是我们所期望的

2.自定义类继承Partitioner,重写getPartition(K key, V value, int numReduceTasks)方法 

package com.atguigu.demomptest.service.partitioner;

import com.atguigu.demomptest.entity.FlowBean;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

import java.util.HashMap;
import java.util.Map;

/**
 * @author sun
 * @description:
 * @time: 2021/3/27 14:29
 */
public class CustomPartitioner extends Partitioner<Text, FlowBean> {
    private static Map<String, Integer> map = new HashMap<>();

    // 此处我们将数据写死,实际开发中我们应该从对应的数据源中获取数据然后存储在缓存中(Redis)
    static {
        map.put("138", 0);
        map.put("139", 1);
        map.put("158", 2);
        map.put("159", 3);
    }

    @Override
    public int getPartition(Text text, FlowBean flowBean, int i) {
        // 获取手机号码的前3位 138
        String prefix = text.toString().substring(0, 3);
        return map.containsKey(prefix) ? map.get(prefix) : 4;
    }
}

3.在job驱动类中设置自定义Partitioner

job.setPartitionerClass(CustomPartitioner.class);

 4.设置相应数量的ReduceTask

job.setNumReduceTasks(5);

 
5.注意点


1.如果ReduceTask的数量>getPartition的数量,则会产生几个空的输出文件part-r-000xx;
2.如果ReduceTask的数量等于1,则不管MapTask端输出多少分区文件,最终结果都会交给这一个ReduceTask,最终也就只会产生一个结果文件part-r-00000;
3.如果1<reduceTask的数量<getPartition的结果数,则有一部分分区数据无处安放,会报错,Exception。
4.分区号必须从零开始,逐一累加

输出结果

 

partitioner的作用就是用来对Map之后的数据做分区处理操作

 

例如:假设自定义分区数为5,则

  • job.setlNlurmReduceTask(1);会正常运行,只不过会产生一个输出文件
  • job.setlNlunReduceTask(2),会报错
  • job.setNumReduceTasks(6);大于5,程序会正常运行,会产生空文件

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值