Partitioner, SortComparator and GroupingComparator in Hadoop

最新推荐文章于 2021-05-23 14:51:57 发布

laiahu

最新推荐文章于 2021-05-23 14:51:57 发布

阅读量1.2k

点赞数

分类专栏： Hadoop 文章标签： hadoop java equals 任务测试 string

Hadoop 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

来源：http://roserouge.iteye.com/blog/746391

hadoop 0.20.2 api里面，作业被重新定义到了类 org.apache.hadoop.mapreduce.Job。

它有3个特别的方法：

job.setPartitionerClass(Partitioner p);

job.setSortComparatorClass(RawComparator c);
job.setGroupingComparatorClass(RawComparator c);

数据在被map处理过之后，会根据 Partitioner 定义的规则，把中间结果分发到特定的reduce。

Partitioner<Key, Value> 包含一个方法：public int getPartition(Key k, Value v, int parts)

    Java代码   
    
  
 public static class P extends Partitioner<IdWithTimestamp, Value> {  
   
     @Override  
     public int getPartition(IdWithTimestamp  k, Value v, int parts) {  
         int hash = k.getId().hashCode();  
         return (hash & Integer.MAX_VALUE) % parts;  
     }  
   
 }  

接下来，可以做一些控制，使得不同 Key的中间数据，能够被分发到同一个reduce 处理，setGroupingComparatorClass提供分组规则。

例如，key可能是[id, timestamp]，这样可以使相同的id(String)能按时间戳(long)排序，现在拆出包含在key里的相同id，分到相同的组。

    Java代码   
    
  
 public class IdComparator extends TextComparator {  
   
     @Override  
     public int compare(IdWithTimestamp o1, IdWithTimestamp o2) {  
         return o1.getId().compareTo(o2.getId());  
     }  
   
 }  

然后，中间数据在被reduce处理之前，会先被集中排序，setSortComparatorClass提供排序规则。

    Java代码   
    
  
 public class TimestampComparator extends TextComparator {  
   
     @Override  
     public int compare(IdWithTimestamp o1, IdWithTimestamp o2) {  
         return o1.getTimestamp() - o2.getTimestamp();  
     }  
   
 }   

如果不提供这些东西，默认使用的是 Key类型的 compareTo方法，而不是 hashCode和 equals。

可以自定义 WritableComparable类型，提供优化比较方法，以提高执行效率。。。字节比较，那是个挺麻烦的事情，我都是很偷懒地一直用Text，拼接、拆分字符串做比较。

Partitioner，SortComparator 和 GroupingComparator 配合即可实现某些对顺序有要求的计算。如果数据集很大的话，可能还需要控制map对输入的分割

    Java代码   
    
  
 public class NoSplitInputFormat extends TextInputFormat {  
   
     @Override  
     protected boolean isSplitable(JobContext context, Path file) {  
         return false;  
     }  
   
 }