1.自己学习hadoop中间过程中,对程序运行过程产生了许多疑惑。参考了许多资料。特此总结。
2.当然还是以wordcount这例子。
3.为了更好的理解过程,这里进行了自定义分区,自定义combiner。字符五个的为到分区1处理,字符四个的到分区2处理.如果对分区不太了解,请参考文章最后的链接。combiner将结果进行合并。相当于redece的功能。
4.
5.这里重点说下combine,在map 任务处理完后,将会有多个溢写文件,在文件被写本地磁盘前,会反复执行combine过程。最后还会进行大的combine,最后形成一个大的文件。
6.
7.自定义分区参考链接点击打开链接