MapReduce工作机制和流程

最新推荐文章于 2022-03-05 17:58:59 发布

sghuu

最新推荐文章于 2022-03-05 17:58:59 发布

阅读量342

点赞数

分类专栏： MapReduce 大数据集群

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sghuu/article/details/98985583

版权

大数据集群同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

**

MapReduce工作机制和流程

在这里插入图片描述

**上面的流程是整个MapReduce最全工作流程，但是Shuffle过程只是从第7步开始到第16步结束，具体Shuffle过程详解，如下：
1）MapTask收集我们的map()方法输出的kv对，放到内存缓冲区中
2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件
3）多个溢出文件会被合并成大的溢出文件
4）在溢出过程及合并的过程中，都要调用Partitioner进行分区和针对key进行排序
5）ReduceTask根据自己的分区号，去各个MapTask机器上取相应的结果分区数据
6）ReduceTask会取到同一个分区的来自不同MapTask的结果文件，ReduceTask会将这些文件再进行合并（归并排序）
7）合并成大文件后，Shuffle的过程也就结束了，后面进入ReduceTask的逻辑运算过程（从文件中取出一个一个的键值对Group，调用用户自定义的reduce()方法）
3．注意
Shuffle中的缓冲区大小会影响到MapReduce程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快。
缓冲区的大小可以通过参数调整，参数：io.sort.mb默认100M。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

sghuu CSDN认证博客专家 CSDN认证企业博客

码龄5年

96: 原创

6万+: 周排名

127万+: 总排名

9万+: 访问

: 等级

1666: 积分

25: 粉丝

33: 获赞

11: 评论

193: 收藏

私信

关注

热门文章

分类专栏

spark 13篇
Flume 1篇
Flink 13篇
kafka 9篇
大数据面试题 1篇
yarn 1篇
hbase 5篇
睿智错误积累 2篇
zookeeper 2篇
linux 2篇
hive 5篇
shell 1篇
jvm原理 1篇
redis 1篇
设计模式 2篇
网络编程 3篇
简单算法 2篇
大数据集群 11篇
java基础 11篇
HDFS 12篇
java基础关键字 4篇
数据结构 3篇
MapReduce 6篇

最新评论

kafka分区策略、ISR以及ack机制、故障处理机制、消费方式、分区分配策略
dengjumingdream: 将知识串联起来，非常通透，谢谢
kafka自定义消费者控制精确一次消费问题
dxyzzzzz: // 设置从哪里开始消费 properties.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG,"earliest"); 这里的 earliest 是固定这个值么大佬？
Flink的触发器Trigger介绍和使用
TTLGain: 实际上windowoperator在每个元素到达时都会有state变更,只是全量聚合函数是将每个元素存到list中, 而增量聚合函数是进行累加器累加. 全量聚合函数只是在窗口触发时进行我们实际的计算
Flink的触发器Trigger介绍和使用
qq_29035793: 我一直也有这个疑问若果增量也这样不是很全量一样攒批了吗
Flink的触发器Trigger介绍和使用
储物柜: 博主，全量聚合函数会根据触发器规则指定时机计算，那增量聚合函数的计算时机也会按照触发器规则吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。