Hadoop 使用Combiner提高Map/Reduce程序效率

最新推荐文章于 2020-11-26 22:00:04 发布

s112322341

最新推荐文章于 2020-11-26 22:00:04 发布

阅读量94

点赞数

文章标签：大数据 java

众所周知，Hadoop框架使用Mapper将数据处理成一个<key,value>键值对，再网络节点间对其进行整理(shuffle)，然后使用Reducer处理数据并进行最终输出。

在上述过程中，我们看到至少两个性能瓶颈：

如果我们有10亿个数据，Mapper会生成10亿个键值对在网络间进行传输，但如果我们只是对数据求最大值，那么很明显的Mapper只需要输出它所知道的最大值即可。这样做不仅可以减轻网络压力，同样也可以大幅度提高程序效率。
使用专利中的国家一项来阐述数据倾斜这个定义。这样的数据远远不是一致性的或者说平衡分布的，由于大多数专利的国家都属于美国，这样不仅Mapper中的键值对、中间阶段(shuffle)的键值对等，大多数的键值对最终会聚集于一个单一的Reducer之上，压倒这个Reducer，从而大大降低程序的性能。

Hadoop通过使用一个介于Mapper和Reducer之间的Combiner步骤来解决上述瓶颈。你可以将Combiner视为Reducer的一个帮手，它主要是为了削减Mapper的输出从而减少网络带宽和Reducer之上的负载。如果我们定义一个Combiner，MapReducer框架会对中间数据多次地使用它进行处理。

如果Reducer只运行简单的分布式方法，例如最大值、最小值、或者计数，那么我们可以让Reducer自己作为Combiner。但许多有用的方法不是分布式的。以下我们使用求平均值作为例子进行讲解：

Mapper输出它所处理的键值对，为了使单个DataNode计算平均值Reducer会对它收到的<key,value>键值对进行排序，求和。

由于Reducer将它所收到的<key,value>键值的数目视为输入数据中的<key,value>键值对的数目，此时使用Combiner的主要障碍就是计数操作。我们可以重写MapReduce程序来明确的跟踪计数过程。

代码如下：

[java]view plaincopy 
   
 packagecom; 
  
 importjava.io.IOException; 
  
 importorg.apache.hadoop.conf.Configuration; 
 importorg.apache.hadoop.conf.Configured; 
 importorg.apache.hadoop.fs.Path; 
 importorg.apache.hadoop.io.DoubleWritable; 
 importorg.apache.hadoop.io.LongWritable; 
 importorg.apache.hadoop.io.Text; 
 importorg.apache.hadoop.mapreduce.Job; 
 importorg.apache.hadoop.mapreduce.Mapper; 
 importorg.apache.hadoop.mapreduce.Reducer; 
 importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
 importorg.apache.hadoop.mapreduce.lib.input.TextInputFormat; 
 importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
 importorg.apache.hadoop.mapreduce.lib.output.TextOutputFormat; 
 importorg.apache.hadoop.util.Tool; 
 importorg.apache.hadoop.util.ToolRunner; 
  
 publicclassAveragingWithCombinerextendsConfiguredimplementsTool{ 
  
 publicstaticclassMapClassextendsMapper<LongWritable,Text,Text,Text>{ 
  
 staticenumClaimsCounters{MISSING,QUOTED}; 
 //MapMethod 
 publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{ 
 Stringfields[]=value.toString().split(",",-20); 
 Stringcountry=fields[4]; 
 StringnumClaims=fields[8]; 
  
 if(numClaims.length()>0&&!numClaims.startsWith("\"")){ 
 context.write(newText(country),newText(numClaims+",1")); 
 } 
 } 
 } 
  
 publicstaticclassReduceextendsReducer<Text,Text,Text,DoubleWritable>{ 
  
 //ReduceMethod 
 publicvoidreduce(Textkey,Iterable<Text>values,Contextcontext)throwsIOException,InterruptedException{ 
 doublesum=0; 
 intcount=0; 
 for(Textvalue:values){ 
 Stringfields[]=value.toString().split(","); 
 sum+=Double.parseDouble(fields[0]); 
 count+=Integer.parseInt(fields[1]); 
 } 
 context.write(key,newDoubleWritable(sum/count)); 
 } 
 } 
  
 publicstaticclassCombineextendsReducer<Text,Text,Text,Text>{ 
  
 //ReduceMethod 
 publicvoidreduce(Textkey,Iterable<Text>values,Contextcontext)throwsIOException,InterruptedException{ 
 doublesum=0; 
 intcount=0; 
 for(Textvalue:values){ 
 Stringfields[]=value.toString().split(","); 
 sum+=Double.parseDouble(fields[0]); 
 count+=Integer.parseInt(fields[1]); 
 } 
 context.write(key,newText(sum+","+count)); 
 } 
 } 
  
 //runMethod 
 publicintrun(String[]args)throwsException{ 
 //CreateandRuntheJob 
 Jobjob=newJob(); 
 job.setJarByClass(AveragingWithCombiner.class); 
  
 FileInputFormat.addInputPath(job,newPath(args[0])); 
 FileOutputFormat.setOutputPath(job,newPath(args[1])); 
  
 job.setJobName("AveragingWithCombiner"); 
 job.setMapperClass(MapClass.class); 
 job.setCombinerClass(Combine.class); 
 job.setReducerClass(Reduce.class); 
 job.setInputFormatClass(TextInputFormat.class); 
 job.setOutputFormatClass(TextOutputFormat.class); 
  
 job.setOutputKeyClass(Text.class); 
 job.setOutputValueClass(Text.class); 
  
 System.exit(job.waitForCompletion(true)?0:1); 
 return0; 
 } 
  
 publicstaticvoidmain(String[]args)throwsException{ 
 intres=ToolRunner.run(newConfiguration(),newAveragingWithCombiner(),args); 
 System.exit(res); 
 } 
  
 }