Hadoop之——自定义分组比较器实现分组功能

  1. package com.lyz.hadoop.group;  
  2.   
  3. import java.io.DataInput;  
  4. import java.io.DataOutput;  
  5. import java.io.IOException;  
  6. import java.net.URI;  
  7.   
  8. import org.apache.hadoop.conf.Configuration;  
  9. import org.apache.hadoop.fs.FileSystem;  
  10. import org.apache.hadoop.fs.Path;  
  11. import org.apache.hadoop.io.LongWritable;  
  12. import org.apache.hadoop.io.RawComparator;  
  13. import org.apache.hadoop.io.Text;  
  14. import org.apache.hadoop.io.WritableComparable;  
  15. import org.apache.hadoop.io.WritableComparator;  
  16. import org.apache.hadoop.mapreduce.Job;  
  17. import org.apache.hadoop.mapreduce.Mapper;  
  18. import org.apache.hadoop.mapreduce.Reducer;  
  19. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
  20. import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;  
  21. import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
  22. import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;  
  23. import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;  
  24.   
  25. /** 
  26.  * Hadoop实现分组操作 
  27.  * 当第一列不同时,升序;当第一列相同时,第二列升序 
  28.  * @author liuyazhuang 
  29.  * 
  30.  */  
  31. public class GroupApp {  
  32.     //要统计的文件位置  
  33.     static final String INPUT_PATH = "hdfs://liuyazhuang:9000/input";  
  34.     //统计结果输出的位置  
  35.     static final String OUT_PATH = "hdfs://liuyazhuang:9000/out";  
  36.     public static void main(String[] args) throws Exception{  
  37.         final Configuration configuration = new Configuration();  
  38.           
  39.         final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), configuration);  
  40.         if(fileSystem.exists(new Path(OUT_PATH))){  
  41.             fileSystem.delete(new Path(OUT_PATH), true);  
  42.         }  
  43.           
  44.         final Job job = new Job(configuration, GroupApp.class.getSimpleName());  
  45.           
  46.         //1.1 指定输入文件路径  
  47.         FileInputFormat.setInputPaths(job, INPUT_PATH);  
  48.         //指定哪个类用来格式化输入文件  
  49.         job.setInputFormatClass(TextInputFormat.class);  
  50.           
  51.         //1.2指定自定义的Mapper类  
  52.         job.setMapperClass(MyMapper.class);  
  53.         //指定输出<k2,v2>的类型  
  54.         job.setMapOutputKeyClass(NewK2.class);  
  55.         job.setMapOutputValueClass(LongWritable.class);  
  56.           
  57.         //1.3 指定分区类  
  58.         job.setPartitionerClass(HashPartitioner.class);  
  59.         job.setNumReduceTasks(1);  
  60.           
  61.         //1.4 TODO 排序、分区  
  62.         job.setGroupingComparatorClass(MyGroupingComparator.class);  
  63.         //1.5  TODO (可选)合并  
  64.           
  65.         //2.2 指定自定义的reduce类  
  66.         job.setReducerClass(MyReducer.class);  
  67.         //指定输出<k3,v3>的类型  
  68.         job.setOutputKeyClass(LongWritable.class);  
  69.         job.setOutputValueClass(LongWritable.class);  
  70.           
  71.         //2.3 指定输出到哪里  
  72.         FileOutputFormat.setOutputPath(job, new Path(OUT_PATH));  
  73.         //设定输出文件的格式化类  
  74.         job.setOutputFormatClass(TextOutputFormat.class);  
  75.           
  76.         //把代码提交给JobTracker执行  
  77.         job.waitForCompletion(true);  
  78.     }  
  79.   
  80.       
  81.     /** 
  82.      * Mapper类的实现 
  83.      * @author liuyazhuang 
  84.      * 
  85.      */  
  86.     static class MyMapper extends Mapper<LongWritable, Text, NewK2, LongWritable>{  
  87.         protected void map(LongWritable key, Text value, org.apache.hadoop.mapreduce.Mapper<LongWritable,Text,NewK2,LongWritable>.Context context) throws java.io.IOException ,InterruptedException {  
  88.             final String[] splited = value.toString().split("\t");  
  89.             final NewK2 k2 = new NewK2(Long.parseLong(splited[0]), Long.parseLong(splited[1]));  
  90.             final LongWritable v2 = new LongWritable(Long.parseLong(splited[1]));  
  91.             context.write(k2, v2);  
  92.         };  
  93.     }  
  94.       
  95.     /** 
  96.      * Reducer类的实现 
  97.      * @author liuyazhuang 
  98.      * 
  99.      */  
  100.     static class MyReducer extends Reducer<NewK2, LongWritable, LongWritable, LongWritable>{  
  101.         protected void reduce(NewK2 k2, java.lang.Iterable<LongWritable> v2s, org.apache.hadoop.mapreduce.Reducer<NewK2,LongWritable,LongWritable,LongWritable>.Context context) throws java.io.IOException ,InterruptedException {  
  102.             long min = Long.MAX_VALUE;  
  103.             for (LongWritable v2 : v2s) {  
  104.                 if(v2.get()<min){  
  105.                     min = v2.get();  
  106.                 }  
  107.             }  
  108.               
  109.             context.write(new LongWritable(k2.first), new LongWritable(min));  
  110.         };  
  111.     }  
  112.       
  113.     /** 
  114.      * 问:为什么实现该类? 
  115.      * 答:因为原来的v2不能参与排序,把原来的k2和v2封装到一个类中,作为新的k2 
  116.      * @author liuyazhuang 
  117.      */  
  118.     static class  NewK2 implements WritableComparable<NewK2>{  
  119.         Long first;  
  120.         Long second;  
  121.           
  122.         public NewK2(){}  
  123.           
  124.         public NewK2(long first, long second){  
  125.             this.first = first;  
  126.             this.second = second;  
  127.         }  
  128.           
  129.           
  130.         @Override  
  131.         public void readFields(DataInput in) throws IOException {  
  132.             this.first = in.readLong();  
  133.             this.second = in.readLong();  
  134.         }  
  135.   
  136.         @Override  
  137.         public void write(DataOutput out) throws IOException {  
  138.             out.writeLong(first);  
  139.             out.writeLong(second);  
  140.         }  
  141.   
  142.         /** 
  143.          * 当k2进行排序时,会调用该方法. 
  144.          * 当第一列不同时,升序;当第一列相同时,第二列升序 
  145.          * @author liuyazhuang 
  146.          */  
  147.         @Override  
  148.         public int compareTo(NewK2 o) {  
  149.             final long minus = this.first - o.first;  
  150.             if(minus !=0){  
  151.                 return (int)minus;  
  152.             }  
  153.             return (int)(this.second - o.second);  
  154.         }  
  155.           
  156.         @Override  
  157.         public int hashCode() {  
  158.             return this.first.hashCode()+this.second.hashCode();  
  159.         }  
  160.           
  161.         @Override  
  162.         public boolean equals(Object obj) {  
  163.             if(!(obj instanceof NewK2)){  
  164.                 return false;  
  165.             }  
  166.             NewK2 oK2 = (NewK2)obj;  
  167.             return (this.first==oK2.first)&&(this.second==oK2.second);  
  168.         }  
  169.     }  
  170.       
  171.       
  172.     /** 
  173.      * 自定义分组比较器 
  174.      * 问:为什么自定义该类? 
  175.      * 答:业务要求分组是按照第一列分组,但是NewK2的比较规则决定了不能按照第一列分。只能自定义分组比较器。 
  176.      * @author liuyazhuang 
  177.      * 
  178.      */  
  179.     static class MyGroupingComparator implements RawComparator<NewK2>{  
  180.   
  181.         @Override  
  182.         public int compare(NewK2 o1, NewK2 o2) {  
  183.             return (int)(o1.first - o2.first);  
  184.         }  
  185.         /** 
  186.          * @param arg0 表示第一个参与比较的字节数组 
  187.          * @param arg1 表示第一个参与比较的字节数组的起始位置 
  188.          * @param arg2 表示第一个参与比较的字节数组的偏移量 
  189.          *  
  190.          * @param arg3 表示第二个参与比较的字节数组 
  191.          * @param arg4 表示第二个参与比较的字节数组的起始位置 
  192.          * @param arg5 表示第二个参与比较的字节数组的偏移量 
  193.          */  
  194.         @Override  
  195.         public int compare(byte[] arg0, int arg1, int arg2, byte[] arg3,  
  196.                 int arg4, int arg5) {  
  197.             return WritableComparator.compareBytes(arg0, arg1, 8, arg3, arg4, 8);  
  198.         }  
  199.           
  200.     }  
  201. }  

转载于:https://my.oschina.net/iioschina/blog/867819

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值