1.特点:
1)高容错、高可用性:利用备份和心跳自检快速恢复
2)流式数据访问:批量的顺序处理,提高吞吐量
3)弹性存储:灵活的增加或减少存储节点
4)简单一致性模型:实现一次性写多次读的访问模式
5)移动计算而非移动数据:对于大文件存储移动计算的成本更低
6)协议和接口多样性:为上层应用提高多种接口,通常自己会有专用接口
7)多样的数据管理功能:数据的压缩、数据加密、数据缓存、存储配额等都分配了多样的管理功能
2.HDFS组件
NameNode:记录文件如何分割成数据块以及数据存储到集群的哪个节点上。读写操作之前都会先访问NameNode
DataNode:文件系统的工作节点、负责数据块的读写和检索
Client:Client代表用户与NameNode和DateNode进行交互
3.体系结构
主从式:
无中心式:
4.高可靠性措施
1)冗余备份:为防止某个节点宕机而导致数据丢失,做备份
2)跨机架副本存放:副本存放时在同一机架和另一台机架上,同一台机架是为了防止节点宕机,跨机架是防止机架宕机
3)心跳检测:节点会定时给NameNoed发心跳包,实时监测节点状况
4)数据完整性检测:NameNode在创建HDFS文件时,会计算每个数据的校验和并存储下来,当获取数据的时候会进行校验
5)安全模式:在HDFS启动时,进入安全模式,不允许写操作,当确保DataNode传来的每个节点没有问题才会退出安全模式
6)核心文件备份:印象文件、事务日志。这些文件一旦损坏HDFS不可用
7)空间回收:HDFS中删除的文件首先会放到 /trash 中,是最后的副本