二十一、MapReduce工作流程介绍

最新推荐文章于 2022-08-01 23:27:41 发布

风zi

最新推荐文章于 2022-08-01 23:27:41 发布

阅读量1.5k

点赞数 2

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35241080/article/details/106098254

版权

hadoop 专栏收录该内容

35 篇文章 2 订阅

订阅专栏

一、流程示意图

如下图流程mr工作详细运行流程
在这里插入图片描述
步骤详细说明
1、获取待处理文件信息，得到文件大小，文件存储位置

2、根据切片参数，准备文件切片信息，如上假设按照默认块大小切片
0-128M
129-200M
两个数据片

3、切片完成有由客户端向yarn提交：job信息、split切片信息、jar包

4、Appmaster根据提交信息计算出开启几个Maptask，其实是由切片个数决定的，它实际决定将开启哪些节点运行任务

5、开启的MapTask按照切片信息加载数据，默认是TextInputFormat所以数据加载规则是一次读取一行，默认key是字节偏移量，value为当前行数据

6、读取数据后，调用jar中编写的mapper运行map函数，调用编写的运算逻辑。

7、将运算后的k，v数据写出到环形缓存区。–shuffle开始位置

8、环形缓存区默认100M，当数据达到80%对数据溢写到本地文件；
缓存区大小可自行设置，如果服务器配置高可提高大小，减少数据溢写过程

9、从环形缓冲区不断溢出本地磁盘文件，可能会溢出多个文件，在溢出过程及合并的过程中，都要调用Partitioner进行分区和针对key进行排序；

10、当溢写文件达到一定数量后，多个溢出文件会被合并成大的溢出文件并排序，最后在map处理数据完毕后会将磁盘上所有文件进行归并排序合并成一个大文件，(减少reducetask读取时的小文件问题)；

这里使用归并排序，因为数据本身已经有序，所以使用归并效率高。

11、combiner合并：这步是自行设置的默认没有，可以在不影响最终结果的情况下，在map段进行一次数据合并，也就是reduce计算。(切记不能影响最终结算结果的情况下使用)，提前合并计算，会减少数据在网络中传输时间。

------以上时maptask端进行

12、所有maptask任务完成后，启动相应的reducetask个数，非特殊情况下应将reducetask个数设置与分区个数一样。

13、reducetask任务运行，每个ReduceTask根据自己的分区号，去各个MapTask机器上拷贝相应的结果分区数据，如果文件大小超过一定阈值，则溢写到文件上，如果磁盘上文件数目达到一定阈值，则进行一次归并排序、合并生成一个更大的文件，如果内存中的文件大小或者数目超过一定阈值，则进行一次合并后将数据溢写到磁盘上。当所有maptask上所有需要的数据拷贝完后，ReduceTask统一对内存与磁盘上的所有数据进行一次归并排序，合并成大文件

14-15、对文件内数据按照key分组，并且一次读取一组数据到自己编写的reduce逻辑运算函数中；

运算逻辑开始前数据分组后是：Shuffle的结束过程

16、将reduce运算结果写出到本地文件中，默认是TextOutputFormat，reduce对文件中分组数据运算结束后，整个mr任务工作流程结束。

二、shuffle机制

在这里插入图片描述

shuffle机制：位于map向缓存区中写数据，到reduce将所有数据取到排序分组后，执行reduce方法前的一个过程就是shuffle过程

关注

2
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
二十一、MapReduce工作流程介绍

一、流程示意图如下图流程mr工作详细运行流程步骤详细说明1、获取待处理文件信息，得到文件大小，文件存储位置2、根据切片参数，准备文件切片信息，如上假设按照默认块大小切片0-128M129-200M两个数据片3、切片完成有由客户端向yarn提交：job信息、split切片信息、jar包4、Appmaster根据提交信息计算出开启几个Maptask，其实是由切片个数决定的，它实际决定将开启哪些节点运行任务5、开启的MapTask按照切片信息加载数据，默认是TextInputFormat所以
复制链接

扫一扫

专栏目录

风zi CSDN认证博客专家 CSDN认证企业博客

码龄8年

209: 原创

4万+: 周排名

8227: 总排名

30万+: 访问

: 等级

4396: 积分

43: 粉丝

109: 获赞

25: 评论

410: 收藏

私信

关注

热门文章

分类专栏

开发工具 1篇
flink.10 1篇
scala 学习 2篇
算法数据结构 21篇
hadoop 35篇
hbase 2篇
kafka 5篇
hive 17篇
zookeeper 10篇
tomcat 2篇
sqoop 2篇
spring 2篇
web 13篇
docker 3篇
springboot 3篇
分布式 2篇
linux 13篇
java 20篇
编码格式 3篇
中文解析工具调用 4篇
数据库问题 10篇
设计模式 11篇
MongoDB 4篇
dubbo 5篇
版本控制工具 8篇
移动端开发 3篇
其它 7篇
mybatis 7篇

最新评论

使用js手写树形插件
lihudgm: 看上去不错
十九、CombineTextInputFormat切片机制源码分析
G港小霸王: 测试文件： c2.txt 2.4MB c7.txt 7.2MB c14.txt 22.9MB 按照4MB大小切块：2.4、3.6、3.6、4、4、4、4、4、2.9 合并切分数据片：(2.4+4)、4、4、4、（3.6+3.6）,(2.9+4) ——原文 ——应该如下按照4mb，则虚拟存储为2.4、3.6、3.6、4、4、4、4、3.45、3.45 ——＞元数据存在linkedhashset中，导致后面数据合并按照顺序合并——> 切片为(2.4+3.6)、(3.6+4)、(4+4)、(4+3.45)、3.45
String字符串编码解码格式
你这个小猪: 你解码、编码没有分清
scala运行抱 forward reference extends over definition of value xxx 异常
回首你还在: 或者你把c2提前声明也可以使用
十六、hive sql求连续三天购买指定需求
Necremoncer: 里面有个date_sub()好像用法错了，不知道hive是不是和MySQL一样

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。