对mapreduce分布式计算框架原理，进行完整流程分析

最新推荐文章于 2022-04-19 11:07:29 发布

阿啄debugIT

最新推荐文章于 2022-04-19 11:07:29 发布

阅读量1.2k

点赞数

分类专栏： # hadoop # mapreduce # hdfs 文章标签：对mapreduce分布式计算框架原理，进行完整流程分析

本文链接：https://blog.csdn.net/as4589sd/article/details/104151004

版权

本文深入剖析MapReduce的工作流程，从简介、设计思想到详细步骤解析，包括Map任务的执行、Reduce任务的处理，强调数据本地化和排序在分布式计算中的重要性。

摘要由CSDN通过智能技术生成

本文中大致的对mapreduce进行完整流程分析，map、reduce端的分析。

一、 MapReduce 简介

MapReduce源自google的一篇文章，将海量数据处理的过程拆分为map和reduce。mapreduce 成为了最早的分布式计算框架，这样即使不懂的分布式计算框架的内部运行机制的用户，也可以利用分布式的计算框架实现分布式的计算，并在hadoop上面运行。

二、设计思想

hadoop 文件系统，提供了一个分布式的文件系统，但是hadoop文件系统读写的操作都涉及到大量的网络的操作，并不能很好的完成实时性比较强的任务。
但是hadoop可以给上面的应用提供一个很好的支持。比如hadoop文件系统上面可以运行mapreduce。mapreduce是一个计算的框架，mapreduce是一个分布式的计算框架，这样mapreduce利用分布式的文件系统，将不同的机器上完成不同的计算，然后就计算结果返回。这样很好的利用了分布式的文件系统。
数据分布式的存储，然后计算的时候，分布式的计算，然后将结果返回。这样的好处就是不会涉及到大量的网络传输数据。

三、原理解析

1.MapReduce完整运行流程

（1）在客户端启动一个作业。
（2）向JobTracker请求一个Job ID。
（3）将运行作业所需要的资源文件复制到HDFS上，包括MapReduce程序打包的jar文件、配置文件和客户端计算所得的计算划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。文件夹名为该作业的Job ID。jar文件默认会有10个副本（mapred.submit.replication属性控制）；输入划分信息告诉了JobTrack