Map/Reduce自定义Partitioner，决定那个key送哪个reducer

最新推荐文章于 2024-07-06 03:08:00 发布

weixin_34006468

最新推荐文章于 2024-07-06 03:08:00 发布

阅读量170

点赞数

文章标签：大数据

原文链接：http://blog.51cto.com/7090376/1730910

版权

Hadoop Map/Reduce Partitioner概念
在Hadoop Map/Reduce框架下，当Mapper处理好数据后，需要使用Partitioner确定怎样合理地将Mapper输出分配到Reducer之中。
默认的情况下，Hadoop对<key,value>键值对中的key取hash值来确定怎样分配给相应的Reducer。Hadoop使用HashParitioner class来执行这一操作。但是有时候HashPartitioner并不能完成它的功能。
假如有一组这样的数据：
(San Francisco, Los Angeles) Chuck Lam
(San Francisco, Dallas) James Warren
...
如果使用HashPartitioner进行操作的话，结果会将以上两条记录分别传给不同的Reducer进行操作，这样子的话输出的结果就会是错误的。那我们怎样自行定义Partitioner呢？

public class EdgePartitioner implements Partitioner<Edge, Writable>

{

    @Override

    public int getPartition(Edge key, Writable value, int numPartitions)

    {

        return new Long(key.getDepartureNode()).hashCode() % numPartitions;

    }

    @Override

    public void configure(JobConf conf) { }

}

一个自定义的Partitioner只需要实现两个功能：getPartition()和configure()。
getPartition()函数返回一个0到Reducer数目之间的int值来确定将<key,value>键值对送到哪一个Reducer中。
configure()使用Hadoop Job Configuration来配置partitioner。

转载于:https://blog.51cto.com/7090376/1730910

weixin_34006468

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Map/Reduce自定义Partitioner，决定那个key送哪个reducer

Hadoop Map/Reduce Partitioner概念在Hadoop Map/Reduce框架下，当Mapper处理好数据后，需要使用Partitioner确定怎样合理地将Mapper输出分配到Reducer之中。默认的情况下，Hadoop对<key,value>键值对中的key取hash值来确定怎样分配给相应的Reducer。Hadoop使用HashPa...
复制链接

扫一扫