在Hadoop Map/Reduce框架下,当Mapper处理好数据后,需要使用Partitioner确定怎样合理地将Mapper输出分配到Reducer之中。
默认的情况下,Hadoop对<key,value>键值对中的key取hash值来确定怎样分配给相应的Reducer。Hadoop使用HashParitioner class来执行这一操作。但是有时候HashPartitioner并不能完成它的功能。
假如有一组这样的数据:
(San Francisco, Los Angeles) Chuck Lam
(San Francisco, Dallas) James Warren
...
如果使用HashPartitioner进行操作的话,结果会将以上两条记录分别传给不同的Reducer进行操作,这样子的话输出的结果就会是错误的。那我们怎样自行定义Partitioner呢?
public class EdgePartitioner implements Partitioner<Edge, Writable>
{
@Override
public int getPartition(Edge key, Writable value, int numPartitions)
{
return new Long(key.getDepartureNode()).hashCode() % numPartitions;
}
@Override
public void configure(JobConf conf) { }
}
一个自定义的Partitioner只需要实现两个功能:getPartition()和configure()。
getPartition()函数返回一个0到Reducer数目之间的int值来确定将<key,value>键值对送到哪一个Reducer中。
configure()使用Hadoop Job Configuration来配置partitioner。
摘自《Hadoop in Action》 Chapter 3.2.4