MapReduce执行流程

在这里插入图片描述
MR的执行过程
Map端
1、获取切片(hdfs的块),会以一行一行的读取,然后经过MR的textinputformat 转化为(key,value)形式
2、自定义Map
3、分区,默认是hashpartition,分区出来后 数据形式变为 (K,V,P)然后输出到缓冲区
4、缓冲区接收大小为128M,当到达80%的时候 就会执行溢写线程进行溢写
5、溢写的过程会执行排序(快速排序(比较器默认是字典序,可以自定义))
6、排序完后如果定义了combiner,且溢写文件达到3个及以上就会进行combiner操作,(combiner相当于一个小型的reduce操作)
7、全部文件spill溢写出完毕后就会进行文件合并。

Reduce端
8、首先进行的是shuffle进行拉取响应分区的内容文件,会进行排序,但是这个排序不会真正移动数据,只是相当于有一个东西存放位置信息。
9、拉取到缓冲区后就会进行溢写操作。
10、溢写完成后会生成一个假的迭代器然后会经过一个分组(比较器优先级:1、自定义分组比较器。2、自定义快排的比较器。3、key的比较器。4、字典序比较。 优先级是1为先)
11、分组完毕后就会经过自定义的reduce。
12、一组数据会以迭代器形式进行写出 然后进行写出 textoutputformat 写出到hdfs。

若有错误请务必指出纠正!!谢谢

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值