一.分布式文件系统HDFS
1.特点介绍
1.高容错性和高可用性
硬件错误是常态而不是异常 HDFS设计为运行在普通硬件上,所以硬件故障是很正常的。HDFS提供文件存储副本策略,可以实现错误自检并快速自动恢复。个别硬件的损坏不影响整体数据完整性和计算任务的正常执行。
2.流式数据访问
HDFS主要采用流式数据读取,做批量处理而不是用户交互处理,因此HDFS更关注数据访问的高吞吐量。流式数据特点:是连续的 但连续式相对的不是绝对的 比如 有一百兆数据 可能会被分成两个五十兆的数据来读取而不是 分成100个 1兆的数据进行读取
3. 弹性存储,支持大规模数据集
弹性存储的最大挑战是减小在修改存储节点时的数据震荡问题
4.单一致性模型
HDFS文件 一次写多次读 高吞吐量
5.移动计算而非移动数据
6. 协议和接口多样性
7. 多样的数据管理功能
对于数据压缩、数据加密、数据缓存和存储配额等提供了多样的管理功能
二.HDFS机构设计
1.HDFS是什么:
是Hadoop 分布式文件系统