HDFS2.X流程

最新推荐文章于 2022-03-23 18:09:40 发布

置顶 leiroliu

最新推荐文章于 2022-03-23 18:09:40 发布

阅读量266

点赞数

分类专栏： hadoop 文章标签： hadoop hdfs 原理

本文链接：https://blog.csdn.net/leiro486592/article/details/81433135

版权

hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

进程组成

ResourceManager：yarn的主管角色（管理协调分配集群中的资源）

NodeManager：yarn中的劳动者

用来启动和监视本地计算机资源单位Container的利用情况。

NameNode: 元数据的处理者。

用来处理DataNode对它的各种请求。列如心跳活动，以及周期性注册等活动。

SecondaryNameNode：元数据文件的合并者

主要负责将元数据在磁盘上的备份文件与元数据操作日志合并的工作节点。

DataNode：数据的存储者

DataNode在HDFS集群中担任具体执行的角色，是集群的工作节点。文件被分割成若干个相同大小的数据块，粉笔储存在若干个DataNode节点上。DataNode会定期的向NameNode发送自己运行状态与储存内容，并根据NameNode的指令进行工作。

文件组成

FSImage：元数据在磁盘上镜像（备份）文件

EditLog：元数据（操作）日志文件

yarn的概念及其作用

yarn：Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

yarn并不了解用户提交程序的运行机制，只提供运算资源的调度（用户程序向yarn申请资源，yarn就负责分配资源），的主管是ResourceManager，中具体提供运算资源的角色是NodeManager。也就是说yarn与用户程序完全解耦，意味着yarn上可以运行各种类型的分布式程序。

正是由于yarn由以上的特点，因此奠定了yarn可以为其它的大数据框架提供自诉案分配管理能力。例如，可以与spark，storm等运算框架结合在一起。这样通过yarn，就可以利用HDFS为这些框架统一的提供各种计算资源。

yarn的工作机制

首先MR 提交任务-->向ResourceManager申请应用-->RM将该引用程序的资源路径返货给yarnRunner-->提交JOB运行所需的资源à资源提交完毕后申请运行MRAppMaster-->RM将用户的请求初始化为一个任务（task）-->RM将这个任务放到等待队列中依据相关的算法等待（默认是FIFO）-->NodeManager领取任务-->NodeManager创建容器(包含CPU + RAM +MPAppmaster)-->下载JOB资源到本地-->想RM申请运行容器àRM创建运行容器（容器内部包含CPU + RAM + mapTask）-->NodeManager向容器发送启动脚本-->NodeManager向RM申请两个容器运行Ruduce Task程序-->Reduce想Map获得相应的数据开始运行-->程序运行完毕MR向ResourceManager注销自己。

leiroliu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS2.X流程

进程组成ResourceManager：yarn的主管角色（管理协调分配集群中的资源）NodeManager：yarn中的劳动者用来启动和监视本地计算机资源单位Container的利用情况。NameNode: 元数据的处理者。用来处理DataNode对它的各种请求。列如心跳活动，以及周期性注册等活动。SecondaryNameNode：元数据文件的合...
复制链接

扫一扫