MR -- Shuffle机制

最新推荐文章于 2022-02-12 22:30:31 发布

火成哥哥

最新推荐文章于 2022-02-12 22:30:31 发布

阅读量661

点赞数

分类专栏： Hadoop 文章标签： java hadoop linux spark python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a1786742005/article/details/104522853

版权

Hadoop 专栏收录该内容

44 篇文章 4 订阅

订阅专栏

1、流程详解
Map 方法之后，Reduce 方法之前的数据处理过程被称为 Shuffle，具体流程为：
(1) MapTask 收集 map() 方法输出的 kv 对，放到内存缓冲区中。
(2) 从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件。
(3) 多个溢出文件会被合并成大的溢出文件。
(4) 在溢出过程及合并的过程中，都要调用 Partitioner 进行分区和针对 key 进行排序。
(5) ReduceTask 根据自己的分区号，去各个 MapTask 机器上取相应的结果分区数据。
(6) ReduceTask 会取到同一个分区的来自不同 MapTask 的结果文件，ReduceTask 会将这些文件再进行合并(归并排序)。
(7) 合并成大文件后，Shuffle 的过程也就结束了，后面进入 ReduceTask 的逻辑运算过程(从文件中取出一个一个的键值对 Group，调用用户自定义的 reduce() 方法)。

2、注意点
Shuffle 中的缓冲区大小会影响到 MapReduce 程序的执行效率，原则上说，缓冲区越大，磁盘 io 的次数越少，执行速度就越快。缓冲区的大小可以通过参数调整，参数：io.sort.mb 默认100M。

3、Shuffle 图示
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MR -- Shuffle机制

1、流程详解Map 方法之后，Reduce 方法之前的数据处理过程被称为 Shuffle，具体流程为：(1) MapTask 收集 map() 方法输出的 kv 对，放到内存缓冲区中。(2) 从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件。(3) 多个溢出文件会被合并成大的溢出文件。(4) 在溢出过程及合并的过程中，都要调用 Partitioner 进行分区和针对 key 进行排...
复制链接

扫一扫

专栏目录

博客等级

码龄6年

198
原创

348
点赞

1497
收藏

226
粉丝

关注

私信

热门文章

分类专栏

flink
scala语言 3篇
hive 11篇
数据仓库 6篇
hbase 7篇
大数据开发笔试 1篇
mysql数据库 3篇
sqoop 1篇
kafka 5篇
flume 10篇
Linux 1篇
计算机网络 1篇
maven 1篇
Zookeeper 6篇
javaEE
spark 23篇
Hadoop 44篇
javaSE 20篇
设计模式
数据结构与算法 32篇
python 28篇
Tensorflow 4篇

最新评论

HDFS网络拓扑-节点距离计算
S903784597: 初学者，有些疑问想请大佬解决：所谓的距离上传数据最近的datanode节点，那么上传数据是指客户端吗？客户端不是在最外层的网络中吗？如果在最外层的网络中对服务器进行访问，那么根据拓扑距离计算不是都是相同距离吗？
利用numpy实现梯度下降预测疾病
希娅: 大佬，运行出来了
电商数仓项目总结
weixin_43740891: 请问，这个数据量是多大啊
解决Python报错：local variable 'a' referenced before assignment
sword_pro: 还存在一种情况是没有对函数判断中的局部变量进行赋值，但后面用了这个局部变量也是这个报错
Python面向对象编程（一）—— 类与实例讲解
weixin_62928650: 类方法不应该有self参数？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。