2.4.2 combiner函数
集群的贷款限制MapReduce作业的数量,为了避免map和reduce任务之间的数据传输,为map任务的输出指定一个combiner(map函数的输出走位combiner的输入,combiner的输出作为reduce函数的输入)优化方案
自己的理解:combiner也就是一个map对应的一个reduce,每个combiner会给每一个map任务的输出执行一遍reduce任务,也就是简化了map任务的输出,使一个输入值只对应一个输出值。相对于原来map的输出(年份,度数的集合)简化成了(年份,最高气温),这样在reduce任务排序的时候就简化了。
combiner不能取代reduce函数的原因:不同的map会输出相同的键,这样combiner输出的也是两个相同的键值的集合
指定combiner函数的方式:job.setCombinerClass(MaxTempratureReducer.class);
2.5 Hadoop Stream(太多的不懂,一些程序和命令)
Map函数的输出转换为标准的输入流,供reduce读取,在读取之前已经由Hadoop框架内部排过序,且键值之间由制表符(\t)分割
2.6 Hadoop Pipes(Streaming的C++版本)