它大概是这样的:
Map: 当有个一个作业要跑的时候,Client从HDFS中将数据拿到,会进行对数据的切片,然后列出来一个切片清单。默认一个块对应一个切片,一个片对应一个Map,当然也可以调整。Map会一条一条的读取数据,将数据变成 K,V 格式进行输出,其实这里还有一个分区的概念,可以抽象的理解为 Map 输出 K,V,P ;输出完之后的数据并没有直接写入磁盘,而是将数据写到Buffer中(默认大小100M),形成很多的小文件,Buffer 中的数据将要达到100M 时,会先将数据先按分区排序,就是将同一分区中的数据放到一起,然后将分区内的数据进行排序。这里的排序可以有,也可以没有,但是如果没有会极其的拉低 Reduce 阶段的处理。最后将这些小文件在同一分区内进行一个归并排序。
Reduce:说到 Reduce 这里有一个非常重要的一句话,我理解为Reuduce 的核心:相同的key为一组,调一次reduce 的方法。
Reduce会从 Map 端拉回属于自己的数据,为什么时自己的数据呢,因为一个 Reduce 处理一个分区的数据,也就是说有多少个分区就会有多少个Reduce 。然后将拉回的数据进行归并,并按一组处理数据,进行合并。
这大概就是MapReduce的执行流程吧,欢迎大家挑刺。嘻嘻
MapReduce执行流程
最新推荐文章于 2021-01-20 23:52:22 发布