Hadoop 自定义Partitioner分区

最新推荐文章于 2023-08-31 12:22:53 发布

老鼠扛刀满街找猫@

最新推荐文章于 2023-08-31 12:22:53 发布

阅读量420

点赞数

分类专栏： hadhoop

本文链接：https://blog.csdn.net/qq_27242695/article/details/119795463

版权

hadhoop 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

文章目录

Hadoop 自定义Partitioner分区

Hadoop 自定义Partitioner分区

1 partitionr作用

partition是分割map每个节点的结果，按照key分别映射给不同的reduce。mapreduce使用哈希HashPartitioner帮我们归类了。这个我们也可以自定义。

2 默认Partitioner分区

public class HashPartitioner<K, V> extends Partitioner<K, V> {
	public int getPartition(K key, V value, int numReduceTasks) {
		return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks; } 
	}

3 自定义Partitioner

自定义类继承Partitioner，重写getPartition()方法

public class CustomPartitioner extends Partitioner<Text, FlowBean> {
	@Override
	public int getPartition(Text key, FlowBean value, int numPartitions) {
	// 控制分区代码逻辑
	… …
		return partition; 
		} 
	}

在Job驱动中，设置自定义Partitioner

job.setPartitionerClass(CustomPartitioner.class);

自定义Partition后，要根据自定义Partitioner的逻辑设置相应数量的ReduceTask

job.setNumReduceTasks(5);

4 注意

ReduceTask 数量 >= getPartition的结果数

原因

如果ReduceTask的数量> getPartition的结果数，则会多产生几个空的输出文件part-r-000xx；
如果1<ReduceTask的数量<getPartition的结果数，则有一部分分区数据无处安放，会Exception；
如果ReduceTask的数量=1，则不管MapTask端输出多少个分区文件，最终结果都交给这一个ReduceTask，最终也就只会产生一个结果文件 part-r-00000；
分区号必须从零开始，逐一累加。

老鼠扛刀满街找猫@

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop 自定义Partitioner分区

文章目录Hadoop 自定义Partitioner分区1 partitionr作用2 默认Partitioner分区3 自定义Partitioner4 注意Hadoop 自定义Partitioner分区1 partitionr作用partition是分割map每个节点的结果，按照key分别映射给不同的reduce。mapreduce使用哈希HashPartitioner帮我们归类了。这个我们也可以自定义。2 默认Partitioner分区public class HashPartitioner&l
复制链接

扫一扫

专栏目录