1.HDFS基本概念
HDFS(Hadoop distributed File System)分布式文件系统。主要用于解决海量文件信息的存储和管理,也就是解决数据存储问题。
(1)NameNode(主节点)
是Hadoop的HDFS的主节点(简称‘老板’),如果namenode关闭,则hadoop集群就没法正常访问。NameNode主要负责管理客户端对文件的访问,记录客户端对文件系统的修改操作。
(2)DataNode(数据节点)
是Hadoop的HDFS的从节点(简称‘员工’),也称为数据节点。在HDFS中数据存放的形式是以块(Block)为单位,而这些块就存放在DataNode节点中。而由于企业级开发数据大部分是海量数据,也因此存储DataNode机器大都是需要大容量磁盘。
老板和员工之间上下级关系,这也好比主从节点之间的关系,老板(主节点)和员工(从节点)之间在工作期间保持着联系,而员工为客户(客户端)和老板工作(调度)。员工不断的为公司创造利益(存储和检索数据块),并完成数据块的操作,而且会报告自己的信息(数据块)给老板。
(3)Block(块)
Hadoop2.0以上默认的是128M,且备份3份。
(4)Metadata(元数据)
元数据大概分为三种形式:
- 在HDFS中维护文件和目录信息,如文件名、文件创建时间、