一、设计思想
1.分散存储:大文件被切割成小文件,使用大文件被切割成小文件,使用分而治之的思想对同一个文件进行管理的思想对同一个文件进行管理。
a.Hadoop1.x默认块大小64M
b.Hadoop2.x默认块大小128M
c.Hadoop3.x默认块大小128M
Tips:切分块大小不是越大越好,也不是越小越好,根据实际情况划分最好
2.冗余备份:每个切分之后的块都进行冗余存储,高可用不丢失。
a.通过设置副本进行冗余备份可以保障在廉价机器上数据的安全性
b.默认副本数为3。假设集群有3个数据节点,则正常保存文件的时候每个数据节点都会保留一份数据文件。但如果设置副本数为4,结果还是只会保留3份数据,不存在一个节点上保留两份相同的数据块。
Tips:HDFS集群中任何节点都没有完全相同的两个数据块
二、架构体系
1.NameNode:
a.管理HDFS的命名空间
b.配置副本存放策略
c.管理数数据块(Block)映射信息
d.管理元数据