MapReduce的shuffling理解
1:官方图解
上图主要分为三个阶段:
Map:分割数据 Reduce:聚合数据 重点在Shuffle(面试)
Shuffing包含:{partition spill(sort+combiner) merge}
shuffling具体过程如下:
1.Map端
1**.Input Split分配给Map
2.Map过程进行处理**,Mapper任务会接收输入分片,然后不断的调用map函数,对记录进行处理。处理完毕后,转换为新的<key,value>输出。
3.Map的输出结果缓存在内存里
4.内存中进行Partition,默认是HashPartitioner(采用取模hash (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks), 目的是将map的结果分给不同的reducer,有几个Partition,就有几个reducer
5.Sort:内存中在Partition结束后,对于不同分区的数据,会按照key进行排序