MapReduce架构

最新推荐文章于 2023-05-05 11:24:50 发布

盛装吾步

最新推荐文章于 2023-05-05 11:24:50 发布

阅读量1.9k

点赞数 2

分类专栏： hadoop 文章标签： mapreduce hadoop yarn

本文链接：https://blog.csdn.net/kangkangwanwan/article/details/78142230

版权

hadoop 专栏收录该内容

19 篇文章 1 订阅

订阅专栏

 
 1.MapReduce架构( 
 MRv1) 

 
 MapReduce 也采用了 Master/Slave（M/S）架构。它主要由以下几个组件组成 ：Client、JobTracker、 TaskTracker 和 Task。下面分别对 这几个组件进行介绍。  

 
 　　 
 （1）Client 

 
 　　 用户编写的MapReduce程序通过Client提交到JobTracker端 ；同时，用户可通过Client提供的一些接口查看作业运行状态。在Hadoop内部用“作业” （Job）表示MapReduce程序。一个 MapReduce程序可对应若干个作业，而每个作业会被分解成若干个Map/Reduce任务（Task）。 

 
 　　 
 （2）JobTracker 

 
 　　JobTracker 主要负责资源监控和作业调度。JobTracker 监控所有 TaskTracker 与作业Job的健康状况，一旦发现失败情况后，其会将相应的任务转移到其他节点；同时，JobTracker 会跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务调度器，而调度器会在资源出现空闲时，选择合适的任务使用这些资源。在Hadoop 中，任务调度器是一个可插拔的模块，用户可以根据自己的需要设计相应的调度器。 

 
 　　 
 （3）TaskTracker 

 
 　　 TaskTracker会周期性地通过Heartbeat将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker发送过来的命令并执行相应的操作（如启动新任务、杀死 任务等）。TaskTracker 使用“slot”等量划分本节点上的资源量。 “slot”代表计算资源（CPU、 内存等）。一个 Task 获取到一个slot 后才有机会运行，而Hadoop调度器的作用就是将各个TaskTracker上的空闲slot分配给Task使用。slot分为Map slot和Reduce slot 两种，分别供Map Task和Reduce Task使用。TaskTracker通过slot数目（可配置参数）限定Task的并发度。 

 
 　　 
 （4）Task 

 
 　　Task 分为 Map Task 和 Reduce Task 两种，均由TaskTracker启动。从上一小节中我们知道， HDFS以固定大小的block 为基本单位存储数据，而对于MapReduce 而言，其处理单位是split。 split 与 block 的对应关系如下图所示。split 是一个逻辑概念，它只包含一些元数据信息，比如 数据起始位置、数据长度、数据所在节点等。它的划分方法完全由用户自己决定。但需要注意的是，split的多少决定了Map Task的数目，因为每个split会交由一个Map Task处理。 

 
 Map Task 执行过程如下图所示。由该图可知，Map Task 先将对应的split 迭代解析成一 个个 key/value 对，依次调用用户自定义的map() 函数进行处理，最终将临时结果存放到本地磁盘上，其中临时数据被分成若干个partition(分片)，每个partition 将被一个Reduce Task处理。 

 
 1）输入 

  在map task 执行时，其输入来源 HDFS的 block ，map task 只读取split 。Split 与 block 的对应关系可能是多对一，默认为一对一。 

 
 2）切分 

  决定于当前的 mapper的 part交给哪个 reduce的方法是：mapreduce 提供的Partitioner接口，对key 进行 hash 后，再以 reducetask 数量取模，然后到指定的 job 上。 

  然后将数据写入内存缓冲区中，缓冲区的作用是批量收集map结果，减少磁盘IO的影响。key/value对以及 Partition 的结果都会被写入缓冲区。写入之前，key 与value 值都会被序列化成字节数组。 

 
 3）溢写 

  由于内存缓冲区的大小限制（默认100MB），当map task输出结果很多时就可能发生内存溢出，所以需要在一定条件下将缓冲区的数据临时写入磁盘，然后重新利用这块缓冲区。这个从内存往磁盘写数据的过程被称为Spill，中文可译为溢写。 

  这个溢写是由另外单独线程来完成，不影响往缓冲区写map结果的线程。 

  整个缓冲区有个溢写的比例spill.percent。这个比例默认是0.8。 

 
 　　Reduce Task 执行过程如下图所示。该过程分为三个阶段： 

 
 　　　　①从远程节点上读取Map Task 中间结果（称为“Shuffle阶段”）； 

 
 　　　　②按照key对key/value 对进行排序（称为“Sort阶段”）； 

 
 　　　　③依次读取 <key, value list>，调用用户自定义的 reduce() 函数处理，并将最终结果存到HDFS上（称为“Reduce 阶段”）。 

 
 MapReduce框架是由一个单独运行在主节点的JobTrack和运行在每个集群从节点的TaskTrack共同组成的。 

 
 主节点负责调度构成一个作业的所有任务，这些任务分布在不同的节点上。主节点监控它们的执行情况，并且重新执行之前失败的任务； 

 
 从节点仅负责由主节点指派的任务。 

 
 当一个Job任务被提交时，JobTrack接收到提交作业和其配置信息之后，就会配置信息等发给从节点，同时调度任务并监控TaskTrack的执行。 

 
 原MapReduce框架的不足 

JobTracker是集群事务的集中处理点，存在单点故障
JobTracker需要完成的任务太多，既要维护job的状态又要维护job的task的状态，造成过多的资源消耗
在taskTracker端，用map/reduce task作为资源的表示过于简单，没有考虑到CPU、内存等资源情况，当把两个需要消耗大内存的task调度到一起，很容易出现OOM
把资源强制划分为map/reduce slot,当只有map task时，reduce slot不能用；当只有reduce task时，map slot不能用，容易造成资源利用不足。

 
 2.Yarn 框架 
 (MRv2) 

  从业界使用分布式系统的变化趋势和 hadoop 框架的长远发展来看，MapReduce 的 JobTracker/TaskTracker 机制需要大规模的调整来修复它在可扩展性，内存消耗，线程模型，可靠性和性能上的缺陷。在过去的几年中，hadoop 开发团队做了一些 bug 的修复，但是最近这些修复的成本越来越高，这表明对原框架做出改变的难度越来越大。 

  YARN是Hadoop 2.0中的资源管理系统，它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务：一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配，而ApplicationMaster负责单个应用程序的管理。 
 ApplicationMaster 承担了以前的 TaskTracker 的一些角色，ResourceManager 承担了 JobTracker 的角色。 

  YARN是一个资源管理、任务调度的框架，主要包含三大模块：ResourceManager（RM）、NodeManager（NM）、ApplicationMaster（AM）。其中，ResourceManager负责所有资源的监控、分配和管理；ApplicationMaster负责每一个具体应用程序的调度和协调；NodeManager负责每一个节点的维护。对于所有的applications，RM拥有绝对的控制权和对资源的分配权。而每个AM则会和RM协商资源，同时和NodeManager通信来执行和监控task。几个模块之间的关系如图所示。 

 
 1、 ResourceManager（RM） 

  YARN 分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。ResourceManager 将各个资源部分（计算、内存、带宽等）精心安排给基础 NodeManager（YARN 的每节点代理）。ResourceManager 还与 ApplicationMaster 一起分配资源，与 NodeManager 一起启动和监视它们的基础应用程序。在此上下文中，ApplicationMaster 承担了以前的 TaskTracker 的一些角色，ResourceManager 承担了 JobTracker 的角色。 

  1）处理客户端请求 

  2）启动或监控ApplicationMaster 

  3）监控NodeManager 

  4）资源的分配与调度 

 
 2、 ApplicationMaster（AM） 

  ApplicationMaster 管理在YARN内运行的每个应用程序实例。ApplicationMaster 负责协调来自 ResourceManager 的资源，并通过 NodeManager 监视容器的执行和资源使用（CPU、内存等的资源分配）。请注意，尽管目前的资源更加传统（CPU 核心、内存），但未来会带来基于手头任务的新资源类型（比如图形处理单元或专用处理设备）。从 YARN 角度讲，ApplicationMaster 是用户代码，因此存在潜在的安全问题。YARN 假设 ApplicationMaster 存在错误或者甚至是恶意的，因此将它们当作无特权的代码对待。 

  1）负责数据的切分 

  2）为应用程序申请资源并分配给内部的任务 

  3）任务的监控与容错 

 
 3、 NodeManager（NM） 

  NodeManager管理YARN集群中的每个节点。NodeManager 提供针对集群中每个节点的服务，从监督对一个容器的终生管理到监视资源和跟踪节点健康。MRv1 通过插槽管理 Map 和 Reduce 任务的执行，而 NodeManager 管理抽象容器，这些容器代表着可供一个特定应用程序使用的针对每个节点的资源。 

  1）管理单个节点上的资源 

  2）处理来自ResourceManager的命令 

  3）处理来自ApplicationMaster的命令 

 
 4、 Container 

  Container 是 YARN 中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等，当AM向RM申请资源时，RM为AM返回的资源便是用Container表示的。YARN会为每个任务分配一个Container，且该任务只能使用该Container中描述的资源。 

  1）对任务运行环境进行抽象，封装CPU、内存等多维度的资源以及环境变量、启动命令等任务运行相关的信息 

 
 3.YARN的资源管理 

  1、资源调度和隔离是yarn作为一个资源管理系统，最重要且最基础的两个功能。资源调度由resourcemanager完成，而资源隔离由各个nodemanager实现。 

  2、Resourcemanager将某个nodemanager上资源分配给任务（这就是所谓的“资源调度”）后，nodemanager需按照要求为任务提供相应的资源，甚至保证这些资源应具有独占性，为任务运行提供基础和保证，这就是所谓的资源隔离。 

  3、当谈及到资源时，我们通常指内存、cpu、io三种资源。Hadoop yarn目前为止仅支持cpu和内存两种资源管理和调度。 

  4、内存资源多少决定任务的生死，如果内存不够，任务可能运行失败；相比之下，cpu资源则不同，它只会决定任务的快慢，不会对任务的生死产生影响。 

 
 4.MapReduce过程 

  1.HADOOP将MR的输入数据划分成等长的数据块，称为“分片”，每个分片构建一个map任务。分片大小一般等于HDFS块大小64MB。在存储有个块的机器上执行运行map任务，即“数据本地化优化”。map任务将输出写入本地硬盘，不需要备份。 

  2reduce任务不具备本地优化优势，将排过序的map输出通过网络传输发送到reduce任务节点。reduce输出存储在HDFS中。 

  3map任务和reduce任务之间的数据流称为shuffle（混洗）。 

  4combiner函数。map任务输出指定一个combiner（算法与reduce相同）。 

 
 5.集群上的并行计算 

  MapReduce 计算模型非常适合在大量计算机组成的大规模集群上并行运行。图一中的每一个 Map 任务和每一个 Reduce 任务均可以同时运行于一个单独的计算结点上，可想而知其运算效率是很高的，那么这样的并行计算是如何做到的呢？ 

  1 数据分布存储 

  Hadoop 中的分布式文件系统 HDFS 由一个管理结点 ( NameNode )和N个数据结点 ( DataNode )组成，每个结点均是一台普通的计算机。在使用上同我们熟悉的单机上的文件系统非常类似，一样可以建目录，创建，复制，删除文件，查看文件内容等。但其底层实现上是把文件切割成 Block，然后这些 Block 分散地存储于不同的 DataNode 上，每个 Block 还可以复制数份存储于不同的 DataNode 上，达到容错容灾之目的。NameNode 则是整个 HDFS 的核心，它通过维护一些数据结构，记录了每一个文件被切割成了多少个 Block，这些 Block 可以从哪些 DataNode 中获得，各个 DataNode 的状态等重要信息。 

  2 分布式并行计算 

  Hadoop 中有一个作为主控的 JobTracker，用于调度和管理其它的 TaskTracker, JobTracker 可以运行于集群中任一台计算机上。TaskTracker 负责执行任务，必须运行于 DataNode 上，即 DataNode 既是数据存储结点，也是计算结点。 JobTracker 将 Map 任务和 Reduce 任务分发给空闲的 TaskTracker, 让这些任务并行运行，并负责监控任务的运行情况。如果某一个 TaskTracker 出故障了，JobTracker 会将其负责的任务转交给另一个空闲的 TaskTracker 重新运行。 

  3 本地计算 

  数据存储在哪一台计算机上，就由这台计算机进行这部分数据的计算，这样可以减少数据在网络上的传输，降低对网络带宽的需求。在 Hadoop 这样的基于集群的分布式并行系统中，计算结点可以很方便地扩充，而因它所能够提供的计算能力近乎是无限的，但是由是数据需要在不同的计算机之间流动，故网络带宽变成了瓶颈，是非常宝贵的，“本地计算”是最有效的一种节约网络带宽的手段，业界把这形容为“移动计算比移动数据更经济”。 

  4任务粒度 

  把原始大数据集切割成小数据集时，通常让小数据集小于或等于 HDFS 中一个 Block 的大小(缺省是 64M)，这样能够保证一个小数据集位于一台计算机上，便于本地计算。有 M 个小数据集待处理，就启动 M 个 Map 任务，注意这 M 个 Map 任务分布于 N 台计算机上并行运行，Reduce 任务的数量 R 则可由用户指定。 

 
 根据分片与map数的计算方法可以得出结论，一个map处理的分片最大不超过dfs.block.size * 1.1，默认情况下是70.4兆。 

  5 数据分割（Partition） 

  把 Map 任务输出的中间结果按 key 的范围划分成 R 份( R 是预先定义的 Reduce 任务的个数)，划分时通常使用 hash 函数如: hash(key) mod R，这样可以保证某一段范围内的 key，一定是由一个 Reduce 任务来处理，可以简化 Reduce 的过程。 

  6 数据合并（Combine） 

  在 partition 之前，还可以对中间结果先做 combine，即将中间结果中有相同 key的 <key, value> 对合并成一对。combine 的过程与 Reduce 的过程类似，很多情况下就可以直接使用 Reduce 函数，但 combine 是作为 Map 任务的一部分，在执行完 Map 函数后紧接着执行的。Combine 能够减少中间结果中 <key, value> 对的数目，从而减少网络流量。 

  7 Reduce 

  Map 任务的中间结果在做完 Combine 和 Partition 之后，以文件形式存于本地磁盘。中间结果文件的位置会通知主控 JobTracker, JobTracker 再通知 Reduce 任务到哪一个 DataNode 上去取中间结果。注意所有的 Map 任务产生中间结果均按其 Key 用同一个 Hash 函数划分成了 R 份，R 个 Reduce 任务各自负责一段 Key 区间。每个 Reduce 需要向许多个 Map 任务结点取得落在其负责的 Key 区间内的中间结果，然后执行 Reduce 函数，形成一个最终的结果文件。 

  8 任务管道 

  有 R 个 Reduce 任务，就会有 R 个最终结果，很多情况下这 R 个最终结果并不需要合并成一个最终结果。因为这 R 个最终结果又可以做为另一个计算任务的输入，开始另一个并行计算任务。 

盛装吾步

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录