Hadoop之Partitioner分区

最新推荐文章于 2022-08-29 19:55:02 发布

秋名山车神不开车

最新推荐文章于 2022-08-29 19:55:02 发布

阅读量521

点赞数 1

分类专栏：大数据 Hadoop 文章标签： mapreduce hadoop Partition 大数据

本文链接：https://blog.csdn.net/weixin_34503526/article/details/115316698

版权

大数据同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

Hadoop

10 篇文章 0 订阅

订阅专栏

1、HashPartitioner（Hadoop自带的默认分区）

HashPartitioner源码如下：

public class HashPartitioner<K2, V2> implements Partitioner<K2, V2> {

public void configure(JobConf job) {}

/** Use {@link Object#hashCode()} to partition. */
public int getPartition(K2 key, V2 value,
int numReduceTasks) {
// key的hash值与integer的最大值取与然后对ReduceTask的个数取余
return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}
}

hash的好处是可以很key的分布更加随机，但是这样会将一些不同的key放在同一个分区中，这并不是我们所期望的

2.自定义类继承Partitioner，重写getPartition(K key, V value, int numReduceTasks)方法

package com.atguigu.demomptest.service.partitioner;

import com.atguigu.demomptest.entity.FlowBean;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

import java.util.HashMap;
import java.util.Map;

/**
* @author sun
* @description:
* @time: 2021/3/27 14:29
*/
public class CustomPartitioner extends Partitioner<Text, FlowBean> {
private static Map<String, Integer> map = new HashMap<>();

// 此处我们将数据写死，实际开发中我们应该从对应的数据源中获取数据然后存储在缓存中(Redis)
static {
map.put("138", 0);
map.put("139", 1);
map.put("158", 2);
map.put("159", 3);
}

@Override
public int getPartition(Text text, FlowBean flowBean, int i) {
// 获取手机号码的前3位 138
String prefix = text.toString().substring(0, 3);
return map.containsKey(prefix) ? map.get(prefix) : 4;
}
}

3.在job驱动类中设置自定义Partitioner

job.setPartitionerClass(CustomPartitioner.class);

4.设置相应数量的ReduceTask

job.setNumReduceTasks(5);

5.注意点

1.如果ReduceTask的数量>getPartition的数量，则会产生几个空的输出文件part-r-000xx;
2.如果ReduceTask的数量等于1，则不管MapTask端输出多少分区文件，最终结果都会交给这一个ReduceTask,最终也就只会产生一个结果文件part-r-00000;
3.如果1<reduceTask的数量<getPartition的结果数，则有一部分分区数据无处安放，会报错，Exception。
4.分区号必须从零开始，逐一累加

输出结果

partitioner的作用就是用来对Map之后的数据做分区处理操作

例如：假设自定义分区数为5，则

job.setlNlurmReduceTask(1)；会正常运行，只不过会产生一个输出文件
job.setlNlunReduceTask(2)，会报错
job.setNumReduceTasks(6)；大于5，程序会正常运行，会产生空文件

秋名山车神不开车

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
Hadoop之Partitioner分区

1、HashPartitioner（Hadoop自带的默认分区）HashPartitioner源码如下：public class HashPartitioner<K2, V2> implements Partitioner<K2, V2> { public void configure(JobConf job) {} /** Use {@link Object#hashCode()} to partition. */ public int getPartit...
复制链接

扫一扫