1、适用范围
(1)、适用于一次写入,多次读取的大文件存储方案
(2)、不适用于低延迟的需求方案,可以考虑Hbase
(3)、不适用于海量小文件存储(metaData会膨胀)
2、两个角色
(1)、NameNode,主要管理文件目录树,文件元数据,并知晓一个文件的block都在哪些dataNode上
(2)、DataNode,定期向nameNode汇报存储的block信息
3、Block概念
(1)、HDFS中的Block为64MB
(2)、文件可以按Block划分,存储于集群中
(3)、Block便于读取数据,减少seek次数
(4)、有利于数据的拷贝,提高稳定性
4、NameNode的容灾问题
(1)、备份NameNode数据,分本地备份和NFS备份
(2)、第二个NameNode,定期合并主NameNode的NamspaceImage
(3)、定期重启
(4)、热备用的NameNode,它和主NameNode共享Share edit log,而且所有DataNode同时向两个NameNode汇报Block信息
5、多NameNode并存
(1)、通过命名空间划分,每个NameNode管理各自的卷(Volume)