MapReduce框架

最新推荐文章于 2023-06-04 00:46:34 发布

小太阳012345

最新推荐文章于 2023-06-04 00:46:34 发布

阅读量164

点赞数

分类专栏：计算机 hadoop 大数据文章标签：大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liujie1234567890/article/details/100518615

版权

计算机同时被 3 个专栏收录

22 篇文章 0 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

一 MapReduce中Map和Reduce的任务数量
中间数据回写到磁盘中，运行速度慢，适合处理海量的离线大数据
spark和storm等都不往磁盘中写文件，处理速度快，因此适合处理实时数据。但并不能真正的代替mapreduce。

Map task的并发数量：
1.map task的并发是由切片的数量决定的，有多少个切片，就启动多少个map task
2.切片是一个逻辑的概念，指的是文件中数据的偏移量范围
3.切片的具体大小应该是根据处理的文件的大小来调整

Reduce task的并发数量：
通过 job.setNumReduceTasks(taks)来设置任务的个数
PS：切记，设置reduce的分组数，应该和分组数一致。

二 MRAppMaster的任务监控调度机制和shuffle的过程：
1.MRAppMaster启动map task
2.汇报处理结果（状态，结果文件所在的位置，分区的信息）
3.启动reduce task，并通知reduce task要取哪个分区的数据以及数据的位置（两个位置：主机和文件的具体位置）
4.下载map的文件
5.对下载的文件进行合并
6.reduce进行运算处理
7.输出到具体的文件part-r-0000…
如图所示：

MRAppMaster的任务监控调度机制和shuffle的过程
三 MR的组件全貌：

MR组件全貌

四 textinputformat对切片规划的源码分析

小太阳012345

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce框架

一 MapReduce中Map和Reduce的任务数量中间数据回写到磁盘中，运行速度慢，适合处理海量的离线大数据spark和storm等都不往磁盘中写文件，处理速度快，因此适合处理实时数据。但并不能真正的代替mapreduce。Map task的并发数量：1.map task的并发是由切片的数量决定的，有多少个切片，就启动多少个map task2.切片是一个逻辑的概念，指的是文件中数据的...
复制链接

扫一扫

专栏目录

小太阳012345 CSDN认证博客专家 CSDN认证企业博客

码龄9年

24: 原创

16万+: 周排名

169万+: 总排名

7628: 访问

: 等级

318: 积分

3: 粉丝

6: 获赞

0: 评论

18: 收藏

私信

关注

分类专栏

hadoop 6篇
大数据 8篇
计算机 22篇
网络
git 1篇
算法 8篇
java 2篇
私人博客 1篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。