MapReduce的整体流程、及shuffle机制

最新推荐文章于 2022-08-01 23:27:41 发布

领悟大数据

最新推荐文章于 2022-08-01 23:27:41 发布

阅读量128

点赞数 2

分类专栏： hadoop 文章标签： mapreduce shuffle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42898914/article/details/84891358

版权

hadoop 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

MapReduce的整体流程
   1、待处理数据
   2、提交客户端submit()
   3、提交信息切片----hadoop jar wc.jar
   4、计算出maptask数量----（nodemanger开辟maptask)
   5、使用TextInputFormat读待处理数据----RecordReader
   6、context.write()源码中用InputOutputContext向环形缓冲区写数据----默认分区和排序   默认为100M，超过80%发生溢写
   7、归并排序
   8、下载到reduceTask本地磁盘
   9、合并文件，归并排序
   10、一次读取一组
   11、默认TextOutputFormat----RecordWrite

shuffle机制（map之后，reduce之前）
   1、写入数据到唤醒缓冲区，默认100M，超过80%，发生溢写
   2、第一次溢写，
   3、进行分区
   4、进行排序
   5、合并，----Combiner可选操作，合并是区与里面发生排序就会触发
   6、归并----合并是每个区内的合并，归并是区与区之间的合并
   7、输出，context()写磁盘
   8、拷贝
   9、内存不够益处到磁盘
   10、归并排序
   11、按照相同的key分组

领悟大数据

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce的整体流程、及shuffle机制

MapReduce的整体流程 1、待处理数据 2、提交客户端submit() 3、提交信息切片----hadoop jar wc.jar 4、计算出maptask数量----（nodemanger开辟maptask) 5、使用TextInputFormat读待处理数据----RecordReader 6、context.write()源码中用Inpu...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。