MapReduce的shuffling理解
1:官方图解


上图主要分为三个阶段:
Map:分割数据 Reduce:聚合数据 重点在Shuffle(面试)
Shuffing包含:{partition spill(sort+combiner) merge}
shuffling具体过程如下:
1.Map端
1**.Input Split分配给Map
2.Map过程进行处理**,Mapper任务会接收输入分片,然后不断的调用map函数,对记录进行处理。处理完毕后,转换为新的<key,value>输出。
3.Map的输出结果缓存在内存里
4.内存中进行Partition,默认是HashPartitioner(采用取模hash (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks), 目的是将map的结果分给不同的reducer,有几个Partition,就有几个reducer
5.Sort:内存中在Partition结束后,对于不同分区的数据&#x

MapReduce的Shuffle阶段包括Partition、Sort、Group、Spill和Merge等步骤。Map任务处理输入分片,输出结果在内存中按Partition分发并排序,相同Key的值分组。内存满时数据溢写到磁盘,并在Map结束时合并。Reduce端则通过Copy和Merge阶段,将Map的输出有序地拷贝到本地,准备进行Reduce处理。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



