wordcount就是hadoop上的“hello world”,非常经典,弄清楚它可以快速的帮助我们理解hadoop一些相关概念和运行机制,
这里找了一篇好文,http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html
基本上把wordcount分析的非常透彻了,流程大概是这样子的
input->data->split->line(default)->mapper->combiner->reducer->output
但是还是有一个问题,就是当hadoop在split的时候,
如果将一个大的文本文件,切割成的部分中有断行怎么办?
又找一篇,作者分析了源码,http://www.cnblogs.com/dyllove98/p/3201248.html
当读到断行时,会去下一个split获取数据
关于reader的问题,还有自定义的inputFormat的方法,在这里有一篇