hadoop之mapreduce详解（基础篇）

最新推荐文章于 2024-03-29 18:26:41 发布

顾思鸣

最新推荐文章于 2024-03-29 18:26:41 发布

阅读量300

点赞数

原文链接：https://www.cnblogs.com/zsql/p/11600136.html

版权

本篇文章主要从mapreduce运行作业的过程，shuffle，以及mapreduce作业失败的容错几个方面进行详解。

一、mapreduce作业运行过程

红尘小说网 www.zuxs.net

1.1、mapreduce介绍

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。 ---来源于百度百科

MapReduce是一个基于集群的高性能并行计算平台（Cluster Infrastructure）
MapReduce是一个并行计算与运行软件框架（Software Framework）
MapReduce是一个并行程序设计模型与方法（Programming Model & Methodology）

mapreduce是hadoop中一个批量计算的框架，在整个mapreduce作业的过程中，包括从数据的输入，数据的处理，数据的数据输入这些部分，而其中数据的处理部分就要map，reduce，combiner等操作组成。在一个mapreduce的作业中必定会涉及到如下一些组件：

1、客户端，提交mapreduce作业
2、yarn资源管理器，负责集群上计算资源的协调
3、yarn节点管理器，负责启动和监控集群中机器上的计算容器（container）
4、mapreduce的application master，负责协调运行mapreduce的作业
5、hdfs，分布式文件系统，负责与其他实体共享作业文件

1.2、作业运行过程

作业的运行过程主要包括如下几个步骤：

1、作业的提交
2、作业的初始化
3、作业任务的分配
4、作业任务的执行
5、作业执行状态更新
6、作业完成

顾思鸣

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop之mapreduce详解（基础篇）

本篇文章主要从mapreduce运行作业的过程，shuffle，以及mapreduce作业失败的容错几个方面进行详解。一、mapreduce作业运行过程红尘小说网 www.zuxs.net1.1、mapreduce介绍 MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式...
复制链接

扫一扫