Hadoop Map/Reduce Partitioner概念

    在Hadoop Map/Reduce框架下,当Mapper处理好数据后,需要使用Partitioner确定怎样合理地将Mapper输出分配到Reducer之中。

    默认的情况下,Hadoop对<key,value>键值对中的key取hash值来确定怎样分配给相应的Reducer。Hadoop使用HashParitioner class来执行这一操作。但是有时候HashPartitioner并不能完成它的功能。

    假如有一组这样的数据:

    (San Francisco, Los Angeles)    Chuck Lam
    (San Francisco, Dallas)              James Warren
    ...

    如果使用HashPartitioner进行操作的话,结果会将以上两条记录分别传给不同的Reducer进行操作,这样子的话输出的结果就会是错误的。那我们怎样自行定义Partitioner呢?    

public class EdgePartitioner implements Partitioner<Edge, Writable>
{
    @Override
    public int getPartition(Edge key, Writable value, int numPartitions)
    {
        return new Long(key.getDepartureNode()).hashCode() % numPartitions;
    }
    @Override
    public void configure(JobConf conf) { }
}

    一个自定义的Partitioner只需要实现两个功能:getPartition()和configure()。

    getPartition()函数返回一个0到Reducer数目之间的int值来确定将<key,value>键值对送到哪一个Reducer中。

    configure()使用Hadoop Job Configuration来配置partitioner。


                                                                                                                         摘自《Hadoop in Action》 Chapter 3.2.4

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值