Hadoop——Partitioner

小董_不长肉

于 2021-09-05 19:18:33 发布

阅读量174

点赞数 2

分类专栏： Hadoop 文章标签： hadoop big data

本文链接：https://blog.csdn.net/d_l_w_d_l_w/article/details/120119330

版权

Hadoop 专栏收录该内容

15 篇文章 3 订阅

订阅专栏

Partitioner的作用：

对map端输出的数据key作一个散列，使数据能够均匀分布在各个reduce上进行后续操作，避免产生热点区。

为什么要创建分区？

我们如果文件很大，我们只使用一个reducer，这个reducer就要负责去所有map端取数据。那么势必会带来性能问题，而且服务器资源也没有合理利用起来。
如果要合理利用，则需要多起几个reducer,那这几个reducer去map端拉取整个文件，这样的话就有这样一个问题：相同的key可能分布在不同map机器或者map文件中，每一个reducer计算出来的结果可能有问题。
现在我们对map的数据进行分区，然后我们就能保证相同的key都在一个分区上，然后reducer拉取数据的时候，所计算的结果是没有问题的。这样既保证的mapreduce执行的效率，又保证了数据的正确性。

大部分情况下，我们都会使用默认的分区函数，但有时我们又有一些，特殊的需求，而需要定制Partition来完成我们的业务，案例如下：

对如下数据，按字符串的长度分区，长度为1的放在一个，2的一个，3的各一个。
河南省;3
河南;2
中国;2
中国人;3
大;1
小;3
中;1

这时候，我们使用默认的分区函数，就不行了，所以需要我们定制自己的Partition，首先分析下，我们需要3个分区输出，所以在设置reduce的个数时，一定要设置为3，其次在partition里，进行分区时，要根据长度具体分区，而不是根据字符串的hash码来分区。

(Partition)分区出现的必要性，如何使用Hadoop产生一个全局排序的文件？最简单的方法就是使用一个分区，但是该方法在处理大型文件时效率极低，因为一台机器必须处理所有输出文件，从而完全丧失了MapReduce所提供的并行架构的优势。事实上我们可以这样做，首先创建一系列排好序的文件；其次，串联这些文件（类似于归并排序）；最后得到一个全局有序的文件。主要的思路是使用一个partitioner来描述全局排序的输出。比方说我们有1000个1-10000的数据，跑10个ruduce任务，如果我们运行进行partition的时候，能够将在1-1000中数据的分配到第一个reduce中，1001-2000的数据分配到第二个reduce中，以此类推。即第n个reduce所分配到的数据全部大于第n-1个reduce中的数据。这样，每个reduce出来之后都是有序的了，我们只要cat所有的输出文件，变成一个大的文件，就都是有序的了