MR的执行过程
Map端
1、获取切片(hdfs的块),会以一行一行的读取,然后经过MR的textinputformat 转化为(key,value)形式
2、自定义Map
3、分区,默认是hashpartition,分区出来后 数据形式变为 (K,V,P)然后输出到缓冲区
4、缓冲区接收大小为128M,当到达80%的时候 就会执行溢写线程进行溢写
5、溢写的过程会执行排序(快速排序(比较器默认是字典序,可以自定义))
6、排序完后如果定义了combiner,且溢写文件达到3个及以上就会进行combiner操作,(combiner相当于一个小型的reduce操作)
7、全部文件spill溢写出完毕后就会进行文件合并。
Reduce端
8、首先进行的是shuffle进行拉取响应分区的内容文件,会进行排序,但是这个排序不会真正移动数据,只是相当于有一个东西存放位置信息。
9、拉取到缓冲区后就会进行溢写操作。
10、溢写完成后会生成一个假的迭代器然后会经过一个分组(比较器优先级:1、自定义分组比较器。2、自定义快排的比较器。3、key的比较器。4、字典序比较。 优先级是1为先)
11、分组完毕后就会经过自定义的reduce。
12、一组数据会以迭代器形式进行写出 然后进行写出 textoutputformat 写出到hdfs。
若有错误请务必指出纠正!!谢谢