Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写

最新推荐文章于 2024-08-19 19:55:55 发布

LIUXUN1993728

最新推荐文章于 2024-08-19 19:55:55 发布

阅读量6.2k

点赞数

分类专栏： Hadoop大数据

本文链接：https://blog.csdn.net/u013087513/article/details/77771600

版权

本文详细介绍了MapReduce的工作原理，包括其大致流程和相关类的介绍，重点讨论了Hadoop序列化机制，特别是Writable接口。通过测试和分析Hadoop自带的WordCount程序，阐述了MapReduce程序的编写过程。此外，还讲解了如何使用Maven开发自定义Bean实现MapReduce任务，并探讨了Hadoop远程Debug的方法，为实际操作提供了实用指南。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MapReduce概述

MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题。

MR由两个阶段组成：Map和Reduce，用户只需要实现map()和Reduce()两个函数，即可实现分布式计算。

这两个函数的形参是key、Value对，表示函数的输入信息。

MapReduce的老大是JobTracker 小弟叫TaskTracker相当于小组长执行具体任务的是Map任务和reduce任务
在Hadoop 0.23版本之后 JobTracker—>ResourceManager(RM) TaskTracker—>NodeManager(NM)
RM和NM只存在于Hadoop 2.0之后的版本中 JobTracker和TaskTracker只存在Hadoop1.0以下除了0.23版本
有了Yarn之后完全转为RM和NM YARN不仅仅可以运行MapReduce

MapReduce的大致流程

① Client将业务逻辑代码(计算逻辑)打成jar包上传到Linux运行。

② client然后向RM发出提交作业的请求（使用RPC协议），RM根据任务请求获取jar包的信息，然后向客户端发送元数据信息(在HDFS上的jar包位置即存放jar包的路径和一个jobid) ,

③ 客户端Client拿到RM返回的信息为避免重复，将信息里存放jar包的路径作为前缀，jobid作为后缀进行拼接作为唯一标识在HDFS上存放此jar包的路径，得到唯一路径后，将此jar包写入到HDFS中(Client中持有FileSystem对象的引用)。一般手动上传文件默认是保存3份(伪分布式配置为1份)，为了减轻计算压力 jar包(map和reducer)会在HSDF上保存10份，运行完成一段时间后就会删除。

④ 写入成功完成后，客户端会将jar包的存储位置，jobid 作为参数以RPC的方式传递给RM。

⑤、⑥ RM就会存储此作业的描述信息。然后RM就会使用任务调度器(默认的调度器是队列调度器(job queue) 以先进先出(FIFO)的方式执行)来执行任务。

⑦ 一旦作业被放入调度器内，NM就会通过心跳机制领取任务，由RM根据NM的机器状况决定是否将任务分配给NM。

⑧、⑨NM领取到任务后就会从HDFS上下载jar包，并启动独立于自己的子进程(MapTask从HDFS读取数据。

10、ReduceTask计算结果并写入到HDFS中)执行任务

注意：这里所谓的心跳机制就是每隔一段时间，NM会向RM回报信息并自动向RM询问申请任务，然后RM就会将元数据信息发送给NM，NM根据元数据信息从HDFS上现在对应的jar包数据并运行。

Hadoop1.0版本中任务执行的详细步骤如下：

MR执行流程可以概括为以下步骤：

(1).客户端提交一个mr的jar包给JobClient(提交方式：hadoop jar ...)
(2).JobClient通过RPC和JobTracker进行通信，返回一个存放jar包的地址（HDFS）和jobId
(3).client将jar包写入到HDFS当中(path = hdfs上的地址 + jobId)
(4).开始提交任务(任务的描述信息，不是jar, 包括jobid，jar存放的位置，配置信息等等)
(5).JobTracker进行初始化任务
(6).读取HDFS上的要处理的文件，开始计算输入分片，每一个分片对应一个MapperTask
(7).TaskTracker通过心跳机制领取任务（任务的描述信息）
(8).下载所需的jar，配置文件等
(9).TaskTracker启动一个java child子进程，用来执行具体的任务（MapperTask或ReducerTask）
(10).将结果写入到HDFS当中

MapReduce原理

JobTracker 功能是资源分配由它根据机器性能决定在哪台机器上运行几个Mapper和几个Reducer
同时它还进行任务的监控，如果检测到某执行任务的机器宕机了 JobTracker会将该任务进行转移
InputSplit 输入切片一个InputSplit对应一个Mapper
Mapper的任务执行完成后 Mapper的输出会作为Reducer的输入进行运算，Reducer任务完成后会将结果输出到HDFS中。

任务逻辑代码(jar) 上传到HDFS 被物理切分成多个Block
通过记录文件偏移量将任务逻辑切分成多个任务切片(split)
每个TaskSplit对应一个Mapper
Mapper和Reducer和输入输出都是以<key,value>的形式存在的
Shuffle (****)非常重要主要完成Mapper输出的排序和分组进行合并
框架已经完成了分区排序和分组，如果想实现MapReduce模型，只需重写Map方法和Reduce方法实现具体的业务逻辑即可。

MapReduce相关的类简介：

(一) FIleInputFormat：

FileInputFormat是所有以文件为数据源的InputFormat实现的基类，FileInputFormat保存作为job输入的所有文件，并实现了对输入文件计算splits的方法。至于获得记录的方法是有不同的子类——TextInputFormat进行实现的。

(二) InputFormat：

InputFormat负责处理MR的输入部分。

有三个作用：

① 验证作业的输入是否规范。

② 将输入文件切分成InputSplit。

③ 提供RecordReader的实现类，将InputSplit读到Mapper中进行处理。

(三) InputSplit

① 在执行MapReduce之前，原始数据被切割成若干个split，每个split作为一个map任务的输入，在map执行过程中split会被分解成一个个记录(key-value对)，map会依次处理每一个记录。

② FileInputFormat只划分比HDFS Block大的文件，所以FileInputFormat划分的结果就是这个文件或者是这个文件中的一部分。

③ 如果一个文件的大小比Block小，将不会被划分，这也就是Hadoop处理大文件的效率要比处理很多小文件的效率高的原因。

④ 当Hadoop处理很多小文件(文件大小小于HDFS Block大小)的时候，由于FileInputFormat不会对小文件进行划分，所以每一个小文件都会被当做一个split并分配一个map任务，导致效率低下。

例如：一个G的文件，会被划分成8个128MB的split，并分配8个map任务处理，而10000个100KB的文件会被10000个map任务处理。

(四) TextInputFormat

TextInputFormat是默认的处理类，处理普通文本文件。

文件每一行作为一个记录，它将每一行在文件中的起始偏移量作为key，每一行的内容作为Value。

默认以\n或者回车键作为一行记录

TextInputFormat继承了FileInputFormat

(五)其它输入类

◆ CombineFileInputFormat
相对于大量的小文件来说，hadoop更合适处理少量的大文件。
CombineFileInputFormat可以缓解这个问题，它是针对小文件而设计的。
◆ KeyValueTextInputFormat
当输入数据的每一行是两列，并用tab分离的形式的时候，KeyValueTextInputformat处理这种格式的文件非常适合。
◆ NLineInputformat NLineInputformat可以控制在每个split中数据的行数。
◆ SequenceFileInputformat

最低0.47元/天解锁文章