Hadoop Map/Reduce Partitioner概念

最新推荐文章于 2021-03-30 08:52:24 发布

jokes000

最新推荐文章于 2021-03-30 08:52:24 发布

阅读量4.8k

点赞数

分类专栏： Hadoop学习文章标签： hadoop class action 框架

Hadoop学习专栏收录该内容

19 篇文章 1 订阅

订阅专栏

在Hadoop Map/Reduce框架下，当Mapper处理好数据后，需要使用Partitioner确定怎样合理地将Mapper输出分配到Reducer之中。

默认的情况下，Hadoop对<key,value>键值对中的key取hash值来确定怎样分配给相应的Reducer。Hadoop使用HashParitioner class来执行这一操作。但是有时候HashPartitioner并不能完成它的功能。

假如有一组这样的数据：

(San Francisco, Los Angeles) Chuck Lam
(San Francisco, Dallas) James Warren
...

如果使用HashPartitioner进行操作的话，结果会将以上两条记录分别传给不同的Reducer进行操作，这样子的话输出的结果就会是错误的。那我们怎样自行定义Partitioner呢？

public class EdgePartitioner implements Partitioner<Edge, Writable>
{
    @Override
    public int getPartition(Edge key, Writable value, int numPartitions)
    {
        return new Long(key.getDepartureNode()).hashCode() % numPartitions;
    }
    @Override
    public void configure(JobConf conf) { }
}

一个自定义的Partitioner只需要实现两个功能：getPartition()和configure()。

getPartition()函数返回一个0到Reducer数目之间的int值来确定将<key,value>键值对送到哪一个Reducer中。

configure()使用Hadoop Job Configuration来配置partitioner。

摘自《Hadoop in Action》 Chapter 3.2.4