MapReduce端的二次排序以及对移动计算而不是移动数据的理解

最新推荐文章于 2022-04-26 16:53:19 发布

king_a_123

最新推荐文章于 2022-04-26 16:53:19 发布

阅读量8.5k

点赞数 1

本文链接：https://blog.csdn.net/king_a_123/article/details/53439801

版权

，

1.其实MapReduce的二次排序是我们定义的sort排序会执行两遍，第一遍是在map端执行，针对一个map任务的(当partition之后的将数据写入到内存缓冲区的时候，达到内存缓冲区的80%的时候就会spill到disk,此时disk是作为硬盘缓存的，所以我们的数据在硬盘上可以sort排序，而且在map执行完任务之后数据就不见了)，那么当程序执行到reduce之后，reduce端shuffle首先会将各个map端的数据都抓取到reduce端的内存缓冲区中，等达到内存缓冲区的80%的时候就会溢出到硬盘，硬盘作为内存缓冲区，在这里会第二次执行我们写的sort排序，也就是二次排序！这就是有名的二次排序！

2.不要再认为sort+group是二次排序了，group的作用就是一次性将同一组数据交给一个reduce任务处理！

3.这里需要强调的是：map任务不是随随便便地分配给某个TaskTracker的，这里有个概念叫：数据本地化（Data-Local）。意思是：将map任务分配给含有该map处理的数据块的TaskTracker上，同时将程序JAR包复制到该TaskTracker上来运行，这叫“运算移动，数据不移动”。而分配reduce任务时并不考虑数据本地！

上面也就是说，移动计算而不是移动数据实际上是针对shuffle之前的map端而言的，而不是针对reduce端而言的！