1.HDFS概念
1)数据块:
- HDFS的文件被分成块进行存储,块是文件存储的逻辑单元
- 是抽象的块,而非整个文件作为存储单元;
- 默认大小是64M,一般设置为128M,备份3份
2)NameNode:
- 管理节点,管理文件系统的命名空间,存放文件元数据;
- 维护文件系统所有文件和目录,文件与数据块的映射
- 记录每个文件中数据库所在数据节点的信息
3)DataNode :
- 工作节点,存储并检索数据块
- 向NameNode更新所存储块的列表
2.HDFS体系结构
3.数据管理策略
1)数据块副本:每个数据块3个副本,分布在两个基价内的三个副本上
2)心跳检测:DataNode定期向NameNode发送心跳消息
3)二级NamedNode:二级NameNode定期同步愿数据映像文件和修改日志,NameNode发生故障时,备胎转正
4.HDFS文件读写流程
1)读取文件流程
2)写入文件流程
4.HDFS的优缺点
优点
- 适合大文件的存储,支持TB、PB级的数据存储,并有副本策略
- 高扩展,低成本:可以构建在廉价的机器上,并有一定的容错和恢复机制
- 支持流式数据访问,一次写入,多次读取,最高效
- 成熟的生态圈
缺点
- 不适合大量小文件的存储
- 不适合并发写入,不支持文件随机修改;不适合交互式应用,低延迟很难满足
- 不支持随机读等低延时的访问方式