2019/12/30 16:03 周一 |
一、MapReduce概述
1.1、MapReduce定义
MapReduce是一个分布式运算程序的编程框架,是用户开发"基于Hadoop的数据分析应用"的核心框架。
MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。
1.2 、MapReduce优缺点
优点 | ①MapReduce易于编程 |
②良好的扩展性 | |
③高容错性 | |
④适合PB级以上海量数据的离线处理 | |
缺点 | ①不擅长实时计算 |
②不擅长流式计算 | |
③不擅长DAG(有向图)计算 |
1.3、MapReduce核心思想
①分布式的运算程序往往需要分成至少2个阶段
②第一个阶段的MapTask并发实例,完全并行运行,互不相干。
③第二个阶段的Reduce并发实例互不相干,但是他们的数据依赖上一阶段的所有MapTask并发案例的输出。
④MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序,串行运行。
1.4、MapReduce进程
一个完整的MapReduce程序在分布式运行时有三类实例进程:
①MrAppMaster:负责整个程序的过程调度及状态协调。
②MapTask:负责Map阶段的整个数据处理流程。
③ReduceTask:负责Reduce阶段的整个数据处理流程。
1.5、官方WordCount源码
采用反编译工具反编译源码,发现WordCount案例有Map类、Reduce类和驱动类我。且数据的类型是Hadopo自身封装的序列化类型。
1.6、常用数据序列化类型
Java类型 | Hadoop序列化类型 |
---|---|
Boolean | BooleanWritable |
Byte | ByteWritable |
Int | IntWritable |
Float | FloatWritable |
Long | LongWritable |
Double | DoubleWritable |