一. MapReduce概念
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。
Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在hadoop集群上。
二. 为什么要用MapReduce
- 海量数据在单机上处理受硬件资源限制
- 一旦将单机版程序扩展到集群来分布式运行,将极大地增加程序的复杂度和开发难度
- 使用mapreduce,开发人员可以将大部分工作集中在业务逻辑的开发上,而将分布式计算的复杂性交给框架chuli
- mapreduce分布式方案的考虑问题
- 运算逻辑要不要先分后合?
- 程序如何分配运算任务?
- 两阶段的程序如何启动?如何协调?
- 整个程序运行过程中的监控?容错?重试?
分布式方案需要考虑很多问题,但是我们可以将分布式程序中的公共功能封装成框架,让开发人员集中精力在业务逻辑上。而mapreduce就是这样的框架
MapReduce核心编程思想
- 分布式的运算程序往往需要分成至少2个阶段
- 第一个阶段的maptask并发实例,完全并行运行,互不相干
- 第二个阶段的reducetask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有maptask并发实例的输出
- MapReduce编程模型只能包含一个map阶段和一个reduce阶段,如果用户的业务逻辑非常复杂,那就只能用多个mapreduce程序,串行执行
MrAppMaster 负责整个程序的过程调度及状态协调
MapReduce 进程
一个完整的mapreduce程序在分布式运行时有三类实例进程
- MrAppMaster : 负责整个程序的过程调度以及状态协调
- MapTask: 负责map阶段的整个数据处理流程
- ReduceTask:负责reduce阶段的整个数据处理流程
MapReduce编程规范
程序分为三个部分:Mapper,Reducer,Driver(提交运行的mr程序给客户端)
- Mapper阶段
- 用户自定义的Mapper要继承自己的父类
- Mappper的输入数据是KV对的形式(KV的类型可自定义)
- Mapper中的业务逻辑写在map()方法中
- Mapper的输出数据是KV对的形式(KV的类型可自定义)
- map()方法(masptask进程)对每一个<K,V>调用一次
- Reducer阶段
- 用户自定义的Reducer要继承自己的父类
- Reducer的输入数据类型对象Mapper的输出数据类型,也是KV对
- Reducer的业务逻辑写在reduce()方法中
- Reducetask进程对每一组相同K的<K,V>组调用一次reduce()方法
- Driver阶段
整个程序需要一个Driver来进行提交,提交的是一个描述了各种必要信息的job对象