06-MapReduce工作流程

题目:MapReduce工作流程

画出MapReduce流程,并描述信息


答案:

在这里插入图片描述
在这里插入图片描述
MapTask:
1.客户端在提交任务之前,会先读取待处理文本,然后根据参数配置,形成一个任务分配的规划,并将信息提交给Yarn RM,并计算出MapTask数量
2.MapTask通过InputFormat接口(默认实现类为TextInputFormat)去读取待处理文本,调用map方法进行逻辑运算,通过outputController方法写入到环形缓冲区
3.环形缓冲区(默认大小100M)接收到数据后,大小达到80%就将各分区的数据进行快速排序,然后溢写到文件中
4.随后会将溢出文件中的各个分区进行归并排序,然后通过Combiner提前进行合并(可选),最后写入到磁盘中

ReduceTask:
1.ReduceTask从Map阶段所产生的文件中去读取数据
2.将所有相同分区的数据进行归并排序,并按照key进行分组,然后调用reduce方法进行运算,最后通过OutputFormat接口溢写到磁盘中


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值