MapReduce job.setNumReduceTasks(0)思考

最新推荐文章于 2023-02-27 23:00:00 发布

wanghao_0807

最新推荐文章于 2023-02-27 23:00:00 发布

阅读量799

点赞数

分类专栏： hadoop

2 篇文章 0 订阅

订阅专栏

当job.setNumReduceTasks(0)时，即没有reduce阶段，此时唯一影响的就是map结果的输出方式

如果有reduce阶段，map的结果被flush到硬盘，作为reduce的输入；reduce的结果将被OutputFormat的RecordWriter写到指定的地方（setOutputPath），作为整个程序的输出。
如果没有reduce阶段，map的结果将直接被OutputFormat的RecordWriter写到指定的地方（setOutputPath），作为整个程序的输出。

而OutputFormat可以是普通的FileOutputFormat等，也可以是一个空的OutputFormat如NullOutputFormat。

所以有无reduce和OutputFormat的多样性将组合出现以下情形（这个组合其实没什么意义，只是为了更加清楚而已）

有reduce
1. reduce的结果不需要输出到文件，如reduce里直接将结果插入HBase，此时可以采用NullOutputFormat，当然就不需要setOutputPath。
2. reduce的结果需要输出到文件，如采用FileOutputFormat，需要setOutputPath。
无reduce
1. map的结果需要不输出到文件，如map里直接将结果插入HBase，此时可以采用NullOutputFormat，当然就不需要setOutputPath。
2. map的结果需要输出到文件，如采用FileOutputFormat，需要setOutputPath。

三.总结

有无reduce决定map结果的输出方式。有reduce时reduce的结果作为整个程序的输出；无reduce时，map的结果作为整个程序的输出。如果能在map阶段解决的问题尽量不要丢给直接输出的reduce如IdentityReducer。
如NullOutputFormat层面上OutputFormat的不需要指定OutputPath；其他如FileOutputFormat需要指定，不然
Java代码
1. Exception in thread "main" org.apache.hadoop.mapred.InvalidJobConfException: Output directory not set.
2. at org.apache.hadoop.mapreduce.lib.output.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:138)