一、产生背景
传统的本地文件系统(单机式),在数据量增长过快、数据备份、数据安全性、操作使用便捷性上存在严重不足。
二、架构设计
2.1. 定义
HDFS(Hadoop Distributed File System)Hadoop分布式文件系统。
2.2. 组件角色
1)NameNode: HDFS元数据管理者,管理 NameSpace(文件系统命名空间),记录文件是如何分割成数据块以及他们分别存储在集群中的哪些数据节点上。NameSpace 或其本身属性的任何更改都由 NameNode 记录,维护整个文件系统的文件和目录。
2)DataNode: DataNode 是文件系统的工作节点。根据客户端或者 NameNode 发送的管理指令,负责 HDFS 的数据块的读写和检索操作。通过心跳机制定期向 NameNode 发送他们的存储块的列表。
3)Client : 客户端 Client 代表用户与 NameNode 或者 DataNode 交互来访问整个文件系统的对象
2.3. 特点
1)高容错和高可用性,硬件错误是常态而不是异常
HDFS 设计为运行在普通硬件上,所以硬件故障是很正常的。HDFS 提供文件存储副本策略, 可以实现错误自检并快速自动恢复。个别硬件的损坏不影响整体数据完整性和计算任务的正常执行。
2)流式数据访问