MapReduce的原理和执行流程

最新推荐文章于 2024-08-10 16:30:06 发布

leanaoo

最新推荐文章于 2024-08-10 16:30:06 发布

阅读量4.5k

点赞数

分类专栏：大数据文章标签： MapReduce原理和执行流程

本文链接：https://blog.csdn.net/leanaoo/article/details/83153889

版权

MapReduce是一种由Google提出的用于海量数据批处理的分布式计算模型，主要由Map和Reduce两个阶段组成。程序员只需实现map()和reduce()函数。执行流程包括Job提交、资源准备、Map任务处理、Reduce任务处理等步骤，涉及JobTracker和TaskTracker的角色协调。Map阶段进行数据解析、转换、分区和排序，Reduce阶段则进行数据聚合和业务逻辑处理。

摘要由CSDN通过智能技术生成

概览

1.MapReduce简介
2.MapReduce的原理和执行流程
3.测试MapReduce
4.Java代码实现

MapReduce简介

MapReduce是一种分布式计算模型，是Google提出的，主要用于搜索领域，解决海量数据的计算问题。

MR有两个阶段组成：Map和Reduce，用户只需实现map()和reduce()两个函数，即可实现分布式计算。

MapReduce是一种并行可扩展计算模型，并且有较好的容错性，主要解决海量离线数据的批处理。实现下面目标
★ 易于编程
★ 良好的扩展性
★ 高容错性

MapReduce有哪些角色？各自的作用是什么？
MapReduce由JobTracker和TaskTracker组成。JobTracker负责资源管理和作业控制，TaskTracker负责任务的运行。

MapReduce的原理和执行流程

MapReduce程序执行流程
程序执行流程图如下：
在这里插入图片描述

(1) 开发人员编写好MapReduce program，将程序打包运行。
(2) JobClient向JobTracker申请可用Job，JobTracker返回JobClient一个可用Job ID。
(3) JobClient得到Job ID后，将运行Job所需要的资源拷贝到共享文件系统HDFS中。
(4) 资源准备完备后，JobClient向JobTracker提交Job。
(5) JobTracker收到提交的Job后，初始化Job。
(6) 初始化完成后，JobTracker从HDFS中获取输入splits(作业可以该启动多少Mapper任务)。
(7) 与此同时，TaskTracker不断地向JobTracker汇报心跳信息，并且返回要执行的任务。
(8) TaskTracker得到JobTracker分配(尽量满足数据本地化)的任务后，向HDFS获取Job资源(若数据是本地的，不需拷贝数据)。
(9) 获取资源后，TaskTracker会开启JVM子进程运行任务。
注：
(3)中资源具体指什么？主要包含：
● 程序jar包、作业配置文件xml
● 输入划分信息，决定作业该启动多少个map任务
● 本地文件，包含依赖的第三方jar包(-libjars)、依赖的归档文件(-archives)和普通文件(-files)，如果已经上传，则不需上传

MapReduce原理

最低0.47元/天解锁文章

leanaoo

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
MapReduce的原理和执行流程

概览1.MapReduce简介2.MapReduce的原理和执行流程3.测试MapReduce4.Java代码实现MapReduce简介MapReduce是一种分布式计算模型，是Google提出的，主要用于搜索领域，解决海量数据的计算问题。MR有两个阶段组成：Map和Reduce，用户只需实现map()和reduce()两个函数，即可实现分布式计算。MapReduce是一种并行可扩...
复制链接

扫一扫

专栏目录