前言:
有很多小伙伴对这几个东西的概念有些模糊,这里我做一个总结,希望大家能一篇看懂。
一、HDFS
HDFS是分布式文件系统,有高容错性的特点,可以部署在价格低廉的服务器上,主要包含namenode和datanode。
Namenode是hdfs中文件目录和文件分配管理者,它保存着文件名和数据块的映射管理,数据块和datanode列表的映射关系。其中文件名和数据块的关系保存在磁盘上,但是namenode上不保存数据块和datanode列表的关系,该列表是通过datanode上报建立起来的。
Namenode上的有三种交互,1、client访问namenode获取的相关datanode的信息。2、datanode心跳汇报当前block的情况。3、secondarynamenode

本文总结了HDFS的Namenode和DataNode角色及其交互,YARN的ResourceManager、NodeManager和ApplicationMaster的功能,以及MapReduce的工作流程和组成部分,帮助读者清晰理解这三个大数据组件。
最低0.47元/天 解锁文章
809

被折叠的 条评论
为什么被折叠?



