Hadoop从入门到入土（第二十一天）

南城守护

已于 2024-03-10 02:23:12 修改

阅读量61

点赞数 1

文章标签： hadoop mapreduce 大数据

于 2022-06-06 00:40:22 首次发布

本文链接：https://blog.csdn.net/W2484980893/article/details/125139047

版权

分布式计算框架MapReduce

MapReduce是一种并行编程模型，用于大规模数据集的并行运算。"Map"（映射）和”Reduce“（归约）是它的主要思想，是从函数式编程语言借来的，MapReduce还有从矢量编程语言里借来的特性。它极大的方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指一个Map（映射）函数，实现任务的分配，指定并发的Reduce（归约）函数，用来任务的汇总。

一、MapReduce定义

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。

MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

二、MapReduce优缺点

优点：

1、MapReduce易于编程

2、良好的扩展性

3、高容错性

4、适合PB级以上海量数据的离线处理

缺点：

1、不擅长实时计算

2、不擅长流式计算

3、不擅长DAG（有向无环图）计算
三、MapReduce进程

一个完整的MapReduce程序在分布式运行时有三类实例进程：

1、MrAppMaster：负责整个程序的过程调度及状态协调。

2、MapTask：负责Map阶段的整个数据处理流程。

3、ReduceTask：负责Reduce阶段的整个数据处理流程。
四、常用数据序列化类型

Java类型	Hadoop Writable类型
Boolean	BooleanWritable
Byte	ByteWritable
Int	IntWritable
Float	FloatWritable
Long	LongWritable
Double	DoubleWritable
String	Text
Map	MapWritable
Array	ArrayWritable
Null	NullWritable