大致过程:
- 将要执行的MapReduce程序复制到Master和每一台Worker机器中
- Master决定Map程序与Reduce程序分别由哪些Worker机器执行
- 将所有的文件分块,分配到执行Map程序的Worker机器中进行Map
- 将Map后的结果存入Worker机器的本地磁盘
- 执行Reduce程序的Worker机器远端读取每一份Map结果,进行调整排序,同时执行Reduce程序
- 将使用者需要的运算结果输出
另外,这个博客写的挺不错。
http://www.cnblogs.com/sharpxiajun/p/3151395.html