【Hadoop】1.MapReduce概述

最新推荐文章于 2022-07-03 15:10:43 发布

sdut菜鸟

最新推荐文章于 2022-07-03 15:10:43 发布

阅读量452

点赞数

分类专栏： hadoop 文章标签： hadoop MR

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sdut406/article/details/88769691

版权

hadoop 专栏收录该内容

32 篇文章 2 订阅

订阅专栏

一. MapReduce概念

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架。

Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在hadoop集群上。

二. 为什么要用MapReduce

海量数据在单机上处理受硬件资源限制
一旦将单机版程序扩展到集群来分布式运行，将极大地增加程序的复杂度和开发难度
使用mapreduce，开发人员可以将大部分工作集中在业务逻辑的开发上，而将分布式计算的复杂性交给框架chuli
mapreduce分布式方案的考虑问题
1. 运算逻辑要不要先分后合？
2. 程序如何分配运算任务？
3. 两阶段的程序如何启动？如何协调？
4. 整个程序运行过程中的监控？容错？重试？
  分布式方案需要考虑很多问题，但是我们可以将分布式程序中的公共功能封装成框架，让开发人员集中精力在业务逻辑上。而mapreduce就是这样的框架

MapReduce核心编程思想

分布式的运算程序往往需要分成至少2个阶段
第一个阶段的maptask并发实例，完全并行运行，互不相干
第二个阶段的reducetask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有maptask并发实例的输出
MapReduce编程模型只能包含一个map阶段和一个reduce阶段，如果用户的业务逻辑非常复杂，那就只能用多个mapreduce程序，串行执行

MrAppMaster 负责整个程序的过程调度及状态协调

MapReduce 进程

一个完整的mapreduce程序在分布式运行时有三类实例进程

MrAppMaster ：负责整个程序的过程调度以及状态协调
MapTask：负责map阶段的整个数据处理流程
ReduceTask：负责reduce阶段的整个数据处理流程

MapReduce编程规范

程序分为三个部分：Mapper，Reducer，Driver（提交运行的mr程序给客户端）

Mapper阶段
1. 用户自定义的Mapper要继承自己的父类
2. Mappper的输入数据是KV对的形式（KV的类型可自定义）
3. Mapper中的业务逻辑写在map（）方法中
4. Mapper的输出数据是KV对的形式（KV的类型可自定义）
5. map（）方法（masptask进程）对每一个<K,V>调用一次
Reducer阶段
1. 用户自定义的Reducer要继承自己的父类
2. Reducer的输入数据类型对象Mapper的输出数据类型，也是KV对
3. Reducer的业务逻辑写在reduce（）方法中
4. Reducetask进程对每一组相同K的<K,V>组调用一次reduce（）方法
Driver阶段
整个程序需要一个Driver来进行提交，提交的是一个描述了各种必要信息的job对象

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Hadoop】1.MapReduce概述

一. MapReduce概念MapReduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在hadoop集群上。二. 为什么要用MapReduce海量数据在单机上处理受硬件资源限制一旦将单机版程序扩展到集群来分布式运行，将极大地增加程...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。