MapReduce基础理论

Evan2OO1

已于 2023-07-07 11:39:34 修改

阅读量918

点赞数 1

分类专栏： hadoop 文章标签： hadoop mapreduce

于 2022-11-14 21:57:55 首次发布

本文链接：https://blog.csdn.net/qq_46439199/article/details/127856547

版权

hadoop 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

本文深入探讨MapReduce编程模型，包括其核心思想“分而治之”，Hadoop中的序列化机制，以及MapReduce的运行模式。MapReduce通过Map和Reduce两个阶段实现大数据的并行处理，适用于离线数据批量处理，具有良好的扩展性和高容错性。此外，还介绍了Hadoop的Writable序列化接口，以及MapReduce程序的输入输出特点和执行流程。

摘要由CSDN通过智能技术生成

文章目录

1 初识MapReduce

1.1 MapReduce思想

MapReduce的思想核心是“先分再合，分而治之”。

所谓“分而治之”就是把一个复杂的问题，按照一定的“分解”方法分为等价的规模较小的若干部分，然后逐个解决，分别找出各部分的结果，然后把各部分的结果组成整个问题的最终结果。
这种思想来源于日常生活与工作时的经验。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想，而不是自己原创。
Map表示第一阶段，负责“拆分”：即把复杂的任务分解为若干个“简单的子任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。
Reduce表示第二阶段，负责“合并”：即对map阶段的结果进行全局汇总。
这两个阶段合起来正是MapReduce思想的体现。

一个比较形象的语言解释MapReduce，数停车场中的所有停放车的总数量。你数第一列，我数第二列…这就是Map阶段，人越多，能够同时数车的人就越多，速度就越快。数完之后，聚到一起，把所有人的统计数加在一起。这就是Reduce合并汇总阶段。

1.2 MapReduce设计构思

如何应付大数据处理场景

对相互间不具有计算依赖关系的大数据计算任务，实现并行最自然的办法就是采取MapReduce分而治之的策略。
首先Map阶段进行拆分，把大数据拆分成若干份小数据，多个程序同时并行计算产生中间结果；然后是Reduce聚合阶段，通过程序对并行的结果进行最终的汇总计算，得出最终的结果。
不可拆分的计算任务或相互间有依赖关系的数据无法进行并行计算！例如：求均值。

构建抽象编程模型

MapReduce借鉴了函数式语言中的思想，用Map和Reduce两个函数提供了高层的并行编程抽象模型。

map: 对一组数据元素进行某种重复式的处理；

reduce: 对Map的中间结果进行某种进一步的结果整理。
MapReduce中定义了如下的Map和Reduce两个抽象的编程接口，由用户去编程实现:

map: (k1; v1) → (k2; v2)

reduce: (k2; [v2]) → (k3; v3)
通过以上两个编程接口，大家可以看出MapReduce处理的数据类型是键值对。

统一架构、隐藏底层细节

如何提供统一的计算框架，如果没有统一封装底层细节，那么程序员则需要考虑诸如数据存储、划分、分发、结果收集、错误恢复等诸多细节；为此，MapReduce设计并提供了统一的计算框架，为程序员隐藏了绝大多数系统层面的处理细节。
MapReduce最大的亮点在于通过抽象模型和计算框架把需要做什么(what need to do)与具体怎么做(how to
do)分开了，为程序员提供一个抽象和高层的编程接口和框架。
程序员仅需要关心其应用层的具体计算问题，仅需编写少量的处理应用本身计算问题的业务程序代码。
至于如何具体完成这个并行计算任务所相关的诸多系统层细节被隐藏起来,交给计算框架去处理：从分布代码的执行，到大到数千小到单个节点集群的自动调度使用。

1.3 MapReduce介绍

概述：

分布式计算是一种计算方法，和集中式计算是相对的。
随着计算技术的发展，有些应用需要非常巨大的计算能力才能完成，如果采用集中式计算，需要耗费相当长的时间来完成。
分布式计算将该应用分解成许多小的部分，分配给多台计算机进行处理。这样可以节约整体计算时间，大大提高计算效率。
Hadoop MapReduce是一个分布式计算框架，用于轻松编写分布式应用程序，这些应用程序以可靠，容错的方式并行处理大型硬件集群（数千个节点）上的大量数据（多TB数据集）。
MapReduce是一种面向海量数据处理的一种指导思想，也是一种用于对大规模数据进行分布式计算的编程模型。

背景：

MapReduce最早由Google于2004年在一篇名为《MapReduce:Simplified Data Processingon Large Clusters》的论文中提出。
论文中谷歌把分布式数据处理的过程拆分为Map和Reduce两个操作函数（受到函数式编程语言的启发），随后被Apache Hadoop参考并作为开源版本提供支持，叫做Hadoop MapReduce。
它的出现解决了人们在最初面临海量数据束手无策的问题，同时它还是易于使用和高度可扩展的，使得开发者无需关系分布式系统底层的复杂性即可很容易的编写分布式数据处理程序，并在成千上万台普通的商用服务器中运行。

特点：

易于编程

Mapreduce框架提供了用于二次开发的接口；简单地实现一些接口，就可以完成一个分布式程序。任务计算交给计算框架去处理，将分布式程序部署到hadoop集群上运行，集群节点可以扩展到成百上千个等。
良好的扩展性

当计算机资源不能得到满足的时候，可以通过增加机器来扩展它的计算能力。基于MapReduce的分布式计算得特点可以随节点数目增长保持近似于线性的增长，这个特点是MapReduce处理海量数据的关键，通过将计算节点增至几百或者几千可以很容易地处理数百TB甚至PB级别的离线数据。
高容错性

Hadoop集群是分布式搭建和部署得，任何单一机器节点宕机了，它可以把上面的计算任务转移到另一个节点上运行，不影响整个作业任务得完成，过程完全是由Hadoop内部完成的。
适合海量数据的离线处理

可以处理GB、TB和PB级别得数据量

局限性：

MapReduce虽然有很多的优势，也有相对得局限性，局限性不代表不能做，而是在有些场景下实现的效果比较差，并不适合用MapReduce来处理，主要表现在以下结果方面：

实时计算性能差

MapReduce主要应用于离线作业，无法作到秒级或者是亚秒级得数据响应。
不能进行流式计算

流式计算特点是数据是源源不断得计算，并且数据是动态的；而MapReduce作为一个离线计算框架，主要是针对静态数据集得，数据是不能动态变化得。

实例进程：

一个完整的MapReduce程序在分布式运行时有三类

MRAppMaster：负责整个MR程序的过程调度及状态协调
MapTask：负责map阶段的整个数据处理流程
ReduceTask：负责reduce阶段的整个数据处理流程

阶段组成：

一个MapReduce编程模型中只能包含一个Map阶段和一个Reduce阶段，或者只有Map阶段；
不能有诸如多个map阶段、多个reduce阶段的情景出现；
如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序串行运行。

数据类型：

注意：整个MapReduce程序中，数据都是以kv键值对的形式流转的；
在实际编程解决各种业务问题中，需要考虑每个阶段的输入输出kv分别是什么；
MapReduce内置了很多默认属性，比如排序、分组等，都和数据的k有关，所以说kv的类型数据确定及其重要的。

虽然MapReduce从外表看起来就两个阶段Map和Reduce,但是内部却包含了很多默认组件和默认的行为。包括：

组件：读取数据组件InputFormat、输出数据组件OutputFormat；

行为：排序（key的字典序排序）、分组（reduce阶段key相同的分为一组，一组调用一次reduce处理）；

2 Hadoop Writable序列化机制

序列化： (Serialization)是将结构化对象转换成字节流以便于进行网络传输或写入持久存储的过程。

反序列化：（Deserialization）是将字节流转换为一系列结构化对象的过程，重新创建该对象。

2.1 Java序列化机制

Java中一切都是对象。开发程序中，经常会涉及到下述场景：

跨进程、跨网络传递对象；

将对象数据持久化存储；
这就需要有一种可以在两端传输数据的协议。
Java序列化机制就是为了解决这个问题而产生。
Java对象序列化的机制，把对象表示成一个二进制的字节数组，里面包含了对象的数据，对象的类型信息，对象内部的数据的类型信息等等。通过保存或者转移这些二进制数组达到持久化、传递的目的。
要实现序列化，需要实现java.io.Serializable接口。反序列化是和序列化相反的过程，就是把二进制数组转化为对象的过程。

2.2 Hadoop序列化机制

Hadoop的序列化没有采用java的序列化机制，而是实现了自己的序列化机制Writable。
原因在于java的序列化机制比较臃肿，重量级，是一种不断的创建对象的机制，并且会额外附带很多信息（校验、继承关系等）。
但在Hadoop的序列化机制中，用户可以复用对象，这样就减少了java对象的分配和回收，提高了应用效率。
Hadoop通过Writable接口实现的序列化机制，接口提供两个方法write和readFields。

write叫做序列化方法，用于把对象指定的字段写出去；

readFields叫做反序列化方法，用于从字节流中读取字段重构对象；
Hadoop没有提供对象比较功能，所以和java中的Comparable接口合并，提供一个接口WritableComparable。
WritableComparable接口可用于用户自定义对象的比较规则。

Hadoop封装的数据类型：

Hadoop提供了如下内容的数据类型，这些数据类型都实现了WritableComparable接口，以便用这些类型定义的数据可以被序列化进行网络传输和文件存储，以及进行大小比较。

Hadoop数据类型	Java数据类型
BooleanWritable	boolean
ByteWritable	byte
IntWritable	int
FloatWritable	float
LongWritable	long
DoubleWritable	double
Text	String
MapWritable	map
ArrayWritable	array
NullWritable	null

Hadoop自定义数据类型：

如果觉得Hadoop内置的数据类型不够用，比如像自定义JavaBean封装数据传递；
则自定义对象必须实现Hadoop的序列化机制Writable。
如果需要将自定义的对象作为key传递，则还需要实现Comparable接口，因为MapReduce框中的Shuffle过程要求对key必须能排序。你得指定对象的排序规则是什么。

3 MapReduce程序运行模式

概述：

所谓的运行模式指的是：

MapReduce程序是单机运行还是分布式运行？

MapReduce程序需要的运算资源是Hadoop YARN分配还是本机系统自己分配？
运行在何种模式取决于参数：mapreduce.framework.name

yarn：YARN集群模式

local：本地模式
如果不指定，默认是local模式。

在mapred-default.xml中定义。

如果代码中（conf.set）、运行的环境中有配置（mapred-site.xml），会默认覆盖default配置。

YARN集群模式：

MapReduce程序提交给yarn集群，分发到多个节点上分布式并发执行。数据通常位于HDFS。
需要配置参数：

mapreduce.framework.name=yarn

yarn.resourcemanager.hostname=node1.itcast.cn
提交集群的实现步骤：

确保Hadoop集群启动（HDFS集群、YARN集群）；

将程序打成jar包，上传jar到Hadoop集群的任意一个节点；

执行命令启动。

hadoop jar wordcount.jar xxx.主类 args
#或者使用下面命令提交程序 也是可以的
yarn jar wordcount.jar xxx.主类 args

Local本地模式：

MapReduce程序是被提交给Local JobRunner在本地以单进程的形式运行。是单机程序。
输入和输出的数据可以在本地文件系统，也可以在HDFS上。
本地模式非常便于进行业务逻辑的debug。
右键直接运行main方法所在的主类即可。

如何区分MapReduce的运行模式：

方法1：登录YARN集群查看，是否有程序执行过的记录。这是最准确靠谱的。

http://resourcemanager_host:8088
方式2：通过查看执行日志

提示是否为本地模式运行。

job作业的编号中是否有local关键字，如果有，就是本地模式。

4 MapReduce输入输出特点

概述：MapReduce框架运转在<key,value>键值对上，也就是说，框架把作业的输入看成是一组<key,value>键值对，同样也产生一组<key,value>键值对作为作业的输出，这两组键值对可能是不同的。

输入：

默认读取数据的组件叫做TextInputFormat。
关于输入路径：

- 如果指向的是一个文件，处理该文件；

- 如果指向的是一个文件夹（目录），就处理该目录所有的文件，把所有文件当成整体来处理。

输出：

默认输出数据的组件叫做TextOutputFormat。
输出路径不能提前存在，必须是一个不存在的目录，否则执行报错，因为底层会对输出路径进行检测判断。
可以在程序中编写代码进行判断，如果输出路径存在，先删除，再提交执行。

5 MapReduce执行流程简单梳理

流程图：

在这里插入图片描述

5.1 Map阶段执行过程

第一阶段：把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片规划。

默认Split size = Block size（128M），每一个切片由一个MapTask处理。（getSplits）
第二阶段：对切片中的数据按照一定的规则读取解析返回对。

默认是按行读取数据。key是每一行的起始位置偏移量，value是本行的文本内容。（TextInputFormat）
第三阶段：调用Mapper类中的map方法处理数据。

每读取解析出来的一个，调用一次map方法。
第四阶段：按照一定的规则对Map输出的键值对进行分区partition。默认不分区，因为只有一个reducetask。

分区的数量就是reducetask运行的数量。
第五阶段：Map输出数据写入内存缓冲区，达到比例溢出到磁盘上。溢出spill的时候根据key进行排序sort。

默认根据key字典序排序。
第六阶段：对所有溢出文件进行最终的merge合并，成为一个文件。