谈一谈你对mapreduce 的理解?(大数据面试题系列~)

最新推荐文章于 2024-09-18 20:52:30 发布

苗尼玛乔

最新推荐文章于 2024-09-18 20:52:30 发布

阅读量1.9k

点赞数 2

分类专栏：笔面试大数据文章标签： mapreduce hadoop 面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24871519/article/details/88206851

版权

笔面试同时被 2 个专栏收录

9 篇文章 1 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

MapReduce 是一种用于数据处理的编程模型。我们可以这样理解MapReduce, 把一堆杂乱无章的数据按照某种特征归纳起来，然后处理并得到最后的结果。Map 面对的是杂乱无章的互不相关的数据，它解析每个数据，从中提取key 和value, 也就是提取了数据的特征。经过MapReduce 的shuffle 阶段之后，在Reduce 阶段看到的都是归纳好的数据，然后再进行进一步的处理以得到结果。

Hadoop2 中的MapReduce 工作机制

1.客户端开始运行MapReduce 作业

2.向资源管理器请求一个新的应用ID，用作MapReduce 作业ID

3.将运行作业所需要的资源（作业JAR 文件、配置文件和计算所得的输入分片）复制到HDFS中以作业ID命名的目录下

4.提交作业

5a.资源管理器分配一个容器

5b.在容器中启动作业对应的application master 进程

6.作业的初始化

7.Application master 接收来自于HDFS 的、在客户端计算的输入分片。然后对每一个分片创建一个map 任务对象以及多个reduce 对象

application master 决定如何运行构成MapReduce 作业的各个任务。如果作业很小，就选择在当前JVM 上运行任务，否则申请其它节点。

默认情况下，小作业就是少于10个mapper 且只有一个reducer 且输入大小小于一个HDFS 块的作业。

8.如果作业不是小作业，那么application master 就会为该作业中的所有map 任务和reduce 任务向资源管理器申请容器。

首先为map 任务发出申请，这是因为所有的map 任务必须在reduce 的排序阶段能够启动前完成。直到有5% 的map 任务已经完成时，为reduce 任务申请容器的请求才会发出。

9a 9b.一旦资源管理器为任务分配了一个特定节点上的容器，application master 就通过与节点管理器通信来启动容器。

10.在运行任务之前，首先将任务需要的资源本地化，包括任务作业的配置、JAR文件等。

11.运行任务（Map 任务 or Reduce 任务）

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。