HDFS2.X流程

进程组成

ResourceManager:yarn的主管角色(管理协调分配集群中的资源)

NodeManager:yarn中的劳动者

      用来启动和监视本地计算机资源单位Container的利用情况。

NameNode: 元数据的处理者。

      用来处理DataNode对它的各种请求。列如心跳活动,以及周期性注册等活动。

SecondaryNameNode:元数据文件的合并者

      主要负责将元数据在磁盘上的备份文件与元数据操作日志合并的工作节点。

DataNode:数据的存储者  

      DataNode在HDFS集群中担任具体执行的角色,是集群的工作节点。文件被分割成若干个相同大小的数据块,粉笔储存在若干个DataNode节点上。DataNode会定期的向NameNode发送自己运行状态与储存内容,并根据NameNode的指令进行工作。

文件组成

FSImage:元数据在磁盘上镜像(备份)文件

EditLog:元数据(操作)日志文件

yarn的概念及其作用

yarn:Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

yarn并不了解用户提交程序的运行机制,只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源),的主管是ResourceManager,中具体提供运算资源的角色是NodeManager。也就是说yarn与用户程序完全解耦,意味着yarn上可以运行各种类型的分布式程序。

正是由于yarn由以上的特点,因此奠定了yarn可以为其它的大数据框架提供自诉案分配管理能力。例如,可以与spark,storm等运算框架结合在一起。这样通过yarn,就可以利用HDFS为这些框架统一的提供各种计算资源。

yarn的工作机制

首先MR 提交任务-->向ResourceManager申请应用-->RM将该引用程序的资源路径返货给yarnRunner-->提交JOB运行所需的资源à资源提交完毕后申请运行MRAppMaster-->RM将用户的请求初始化为一个任务(task)-->RM将这个任务放到等待队列中依据相关的算法等待(默认是FIFO)-->NodeManager领取任务-->NodeManager创建容器(包含CPU + RAM +MPAppmaster)-->下载JOB资源到本地-->想RM申请运行容器àRM创建运行容器(容器内部包含CPU + RAM + mapTask)-->NodeManager向容器发送启动脚本-->NodeManager向RM申请两个容器运行Ruduce Task程序-->Reduce想Map获得相应的数据开始运行-->程序运行完毕MR向ResourceManager注销自己。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值