Hadoop基本原理

最新推荐文章于 2024-08-08 10:34:27 发布

鬼～离未罔两

最新推荐文章于 2024-08-08 10:34:27 发布

阅读量1.3w

点赞数 5

分类专栏： hadoop 文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/sky_flying1/article/details/78014723

版权

hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Getting Started

Hadoop是一个用于海量数据统计分析的分布式计算框架，封装了分布式计算中比较困难的进程间通信、负载均衡，任务调度等模块，降低了学习门槛。在最简单的程序实现中，仅仅需要重写map和reduce方法，并实现任务提交逻辑。接下来，就让我们一起推开Hadoop的大门，走进大数据的神奇世界。

Hadoop的组成

Hadoop目前主要包括Hadoop1.x和hadoop2.x，两种版本差距较大，目前常用的是Hadoop2.x版本，所以主要基于Hadoop2.x进行讲解

主要组成模块

Hadoop Distributed File System（HDFS）：分布式文件存储系统。
MapReduce：并行计算框架（可以自定义计算逻辑的部分）
Yet Another Resource Negotiator（YARN）：另一种资源协调者（顾名思义，Hadoop1.x采用的不是这一个资源管理器）

MapReduce的工作机制

MapReduce工作机制
上图是MapReduce的工作原理，首先解释一下各个组成模块的作用。

Job：由客户端向集群提交的一次计算任务。
Task：集群的最小可执行单位（一个Job将会分为多个Task执行）
ResourceManager（以下简称RM）：管理整个集群的计算资源，主要用于为每一个Job分配计算资源（整个集群只有一个RM）
Container：资源分配单位，一个Container包括一些CPU和存储资源
NodeManager（以下简称NM）：管理单台服务器的计算资源，类似RM的更细粒度实现（集群中每台服务器有一个NM）。
ApplicationMaster（以下简称AM）：监控每一个Job的执行情况，包括资源申请、Task调度等。

为了便于理解，下面有一个并不是太恰当的比喻。类似一个学生宿舍的构成，RM相当于宿舍管理处的大BOSS，而Task则相当于一个学生，大BOSS（RM）负责分配一片区域给某个班（Job）的学生（Task）住，而具体每个学生（Task）住哪儿，则由班主任（AM）和楼管（NM）商量（当然一个班级的学生还是可以住在多个楼里边的）。

接下来具体解释图中每一步的作用：

client调用Job提交接口，Job被提交到集群上
为了便于标识Job，会首先向RM请求一个唯一ID，并同时检查Job中的输入/输出路径是否存在，如果输入路径不存在，则报错；如果输出路径存在，也会报错（注意别看错了）
获得唯一ID之后，就把Job所需资源（包括Jar包和输入路径信息）上传到HDFS中（因为分布式环境的原因，需要将这些资源上传到所有节点都能访问到的目录，即这里的HDFS）
在完成以上步骤之后，则可以真正提交Job到集群中。
启动一个Job的时候，首先需要启动该Job的AM，所以RM会主动分配NM上的一个Container（一个Container就是一个JVM），用于运行AM守护进程。
初始化Job，包括启动一些Job运行状态跟踪对象。
从HDFS中读取第3步上传的输入路径信息（包括输入文件所在的服务器节点信息，一份输入文件可能存储在多台服务器上）。
根据上一步的文件路径信息，向RM申请所需资源（Container），尽量保证Container和输入文件在同一台服务器上边，能够减小网络IO（即数据本地化）
AM根据RM分配的Container，向Container所属的NM申请启动Task。
Container在收到启动命令之后，会首先从HDFS下载Task所需Jar包和缓存文件等
最后就是Task的正式运行阶段了。