hadoop核心逻辑shuffle代码分析-reduce端
接上篇文章,下面是reduce端的过程分析。
大概介绍下reduce的实际作用。以mapreduce经常做的groupby为例,map是将输入按group by的key排序,reduce就是做各种类型的聚合,比如sum,max,mean等。因此,可想而知,reduce的输入必须是按照groupby排序的,所以自然,reduce的输入必须汇聚所有map的输入,这也是reduce框架最复杂的
原创
2013-04-01 23:34:40 ·
7583 阅读 ·
4 评论