那你介绍一下 Mapreduce 工作原理？

最新推荐文章于 2022-12-13 22:52:41 发布

星空下的那个人影

最新推荐文章于 2022-12-13 22:52:41 发布

阅读量413

点赞数

分类专栏：大数据面试文章标签： mapreduce

本文链接：https://blog.csdn.net/sb_jb/article/details/125330257

版权

大数据面试专栏收录该内容

87 篇文章 20 订阅

订阅专栏

在这里插入图片描述
MapReduce 工作原理分为以下 5 个步骤：

在客户端启动一个作业。
向 JobTracker 请求一个 Job ID（作业号）。
将运行作业所需要的资源文件复制到 HDFS 上，包括 MapReduce 程序打包的 JAR 文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在 JobTracker 专门为该作业创建的文件夹中。文件夹名为该作业的 Job ID 。JAR 文件默认会有 10 个副本，输入划分信息告诉了 JobTracker 应该为这个作业启动多少个 map 任务等信息。
JobTracker 接收到作业后，将其放在一个作业队列里，等待作业调度器对其进行调度，当作业调度器根据自己的调度算法调度到该作业时，会根据输入划分信息为每个划分创建一个 map 任务，并将 map 任务分配给 TaskTracker 执行。对于 map 和 reduce 任务，TaskTracker 根据主机核的数量和内存的大小有固定数量的 map 槽和 reduce 槽。这里需要强调的是：map 任务不是随随便便地分配给某个 TaskTracker 的，这里有个概念叫：数据本地化（Data-Local）。意思是：将 map 任务分配给含有该 map 处理的数据块的 TaskTracker上，同时将程序 JAR 包复制到该 TaskTracker 上来运行，这叫"运算移动，数据不移动"。而分配 reduce 任务时并不考虑数据本地化。
TaskTracker 每隔一段时间会给 JobTracker 发送一个心跳，告诉 JobTracker 它依然在运行，同时心跳中还携带着很多的信息，比如当前 map 任务完成的进度等信息。当 JobTracker 收到作业的最后一个任务完成信息时，便把该作业设置成"成功"。当 JobClient 查询状态时，它将得知任务已完成，便显示一条消息给用户。