发生几次排序?即发生3次排序:
1 map spill到磁盘的小文件是有序的(达到阈值时,先对环形缓冲区的数据排序,然后spill到磁盘)
2 map spill到磁盘的多个小文件会合并成一个有序的大文件
3 reduce copy后,把溢出的多个小文件合并成一个有序的大文件
1快速排序,2/3是归并排序。
数据几次落盘?
1 map spill到磁盘的小文件
2 reduce copy后,达到一定阈值时,会溢出多个小文件到磁盘
数据几次merge?
1 map端把溢出的多个小文件merge成一个大文件
2 reduce端把溢出的多个小文件merge成一个大文件
数据几次读入内存?
1 map任务启动后,会把数据从磁盘读入内存,执行partition、sort操作
2 在reduce任务的reduce阶段执行时,也会把数据读入内存,然后计算