对mapreduce分布式计算框架原理,进行完整流程分析

本文深入剖析MapReduce的工作流程,从简介、设计思想到详细步骤解析,包括Map任务的执行、Reduce任务的处理,强调数据本地化和排序在分布式计算中的重要性。
摘要由CSDN通过智能技术生成

本文中大致的对mapreduce进行完整流程分析,map、reduce端的分析。

一、 MapReduce 简介

MapReduce源自google的一篇文章,将海量数据处理的过程拆分为map和reduce。mapreduce 成为了最早的分布式计算框架,这样即使不懂的分布式计算框架的内部运行机制的用户,也可以利用分布式的计算框架实现分布式的计算,并在hadoop上面运行。

二、 设计思想

hadoop 文件系统 ,提供了一个分布式的文件系统,但是hadoop文件系统读写的操作都涉及到大量的网络的操作,并不能很好的完成实时性比较强的任务。
但是hadoop可以给上面的应用提供一个很好的支持。比如hadoop文件系统上面可以运行mapreduce。mapreduce是一个计算的框架,mapreduce是一个分布式的计算框架,这样mapreduce利用分布式的文件系统,将不同的机器上完成不同的计算,然后就计算结果返回。这样很好的利用了分布式的文件系统。
数据分布式的存储,然后计算的时候,分布式的计算,然后将结果返回。这样的好处就是不会涉及到大量的网络传输数据

三、原理解析

1.MapReduce完整运行流程

(1)在客户端启动一个作业。
(2) 向JobTracker请求一个Job ID。
(3)将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的jar文件配置文件客户端计算所得的计算划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。文件夹名为该作业的Job ID。jar文件默认会有10个副本(mapred.submit.replication属性控制)输入划分信息告诉了JobTrack

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿啄debugIT

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值