大数据技术之Hadoop(MapReduce)

最新推荐文章于 2022-04-24 20:22:16 发布

Harle·Hou

最新推荐文章于 2022-04-24 20:22:16 发布

阅读量474

点赞数

分类专栏：大数据文章标签： MapReduce

本文链接：https://blog.csdn.net/qq_41491003/article/details/103683227

版权

2019/12/30 16:03 周一

一、MapReduce概述

1.1、MapReduce定义

MapReduce是一个分布式运算程序的编程框架，是用户开发"基于Hadoop的数据分析应用"的核心框架。

MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

1.2 、MapReduce优缺点

**MapReduce优缺点**
优点	①MapReduce易于编程
	②良好的扩展性
	③高容错性
	④适合PB级以上海量数据的离线处理
缺点	①不擅长实时计算
	②不擅长流式计算
	③不擅长DAG(有向图)计算

1.3、MapReduce核心思想

①分布式的运算程序往往需要分成至少2个阶段

②第一个阶段的MapTask并发实例，完全并行运行，互不相干。

③第二个阶段的Reduce并发实例互不相干，但是他们的数据依赖上一阶段的所有MapTask并发案例的输出。

④MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序，串行运行。

1.4、MapReduce进程

一个完整的MapReduce程序在分布式运行时有三类实例进程：

①MrAppMaster：负责整个程序的过程调度及状态协调。

②MapTask：负责Map阶段的整个数据处理流程。

③ReduceTask：负责Reduce阶段的整个数据处理流程。

1.5、官方WordCount源码

采用反编译工具反编译源码，发现WordCount案例有Map类、Reduce类和驱动类我。且数据的类型是Hadopo自身封装的序列化类型。

1.6、常用数据序列化类型

常用的数据类型对应的Hadoop数据序列化类型
Java类型	Hadoop序列化类型
Boolean	BooleanWritable
Byte	ByteWritable
Int	IntWritable
Float	FloatWritable
Long	LongWritable
Double	DoubleWritable

最低0.47元/天解锁文章

Harle·Hou

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据技术之Hadoop(MapReduce)

2019/12/30 16:03 周一一、MapReduce概述1.1、MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发"基于Hadoop的数据分析应用"的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。1.2 、MapReduce优缺...
复制链接

扫一扫