MapReduce执行流程

它大概是这样的:
Map: 当有个一个作业要跑的时候,Client从HDFS中将数据拿到,会进行对数据的切片,然后列出来一个切片清单。默认一个块对应一个切片,一个片对应一个Map,当然也可以调整。Map会一条一条的读取数据,将数据变成 K,V 格式进行输出,其实这里还有一个分区的概念,可以抽象的理解为 Map 输出 K,V,P ;输出完之后的数据并没有直接写入磁盘,而是将数据写到Buffer中(默认大小100M),形成很多的小文件,Buffer 中的数据将要达到100M 时,会先将数据先按分区排序,就是将同一分区中的数据放到一起,然后将分区内的数据进行排序。这里的排序可以有,也可以没有,但是如果没有会极其的拉低 Reduce 阶段的处理。最后将这些小文件在同一分区内进行一个归并排序。
Reduce:说到 Reduce 这里有一个非常重要的一句话,我理解为Reuduce 的核心:相同的key为一组,调一次reduce 的方法。
Reduce会从 Map 端拉回属于自己的数据,为什么时自己的数据呢,因为一个 Reduce 处理一个分区的数据,也就是说有多少个分区就会有多少个Reduce 。然后将拉回的数据进行归并,并按一组处理数据,进行合并。
这大概就是MapReduce的执行流程吧,欢迎大家挑刺。嘻嘻

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值