HDFS
HDFS 全称 Hadoop 分布式文件系统,其最主要的作用是作为 Hadoop 生态中各系统的存储服务。
面对大规模的数据,HDFS 在设计上满足了以下目标:
- 高度容错性: HDFS 可能由成百上千的服务器构成,任何一个组件都可能失效,因此错误检测和快速、自动的恢复时 HDFS 最核心的架构目标。
- 支持大规模数据集: 运行在 HDFS 应用具有很大的数据集,它应该能提供整体上高的数据传输带宽,并能支撑数以千万计的文件。
- 支持流式读取数据: HDFS 的设计更多的考虑到了数据批处理,而不是用户交互处理,比之数据访问延迟的问题,更关键的是数据访问的高吞吐量。
- 简单的一致性模型: “ 一次写入多次读取”的文件访问模型简化了数据一致性的问题,并且是高吞吐量称为可能。
- 移动计算而非移动数据: 一个应用的请求,离它操作的数据越近就越高效,HDFS 提供了将它们自己移动到数据附近的接口。
- 异构软硬件平台间的可移植性: 平台的可移植性,方便用户也方便 HDFS 作为大规模数据应用平台的推广。
架构与原理
如上图所示,HDFS 使用单一的 NameNode 节点简化了整体的设计,同时使用 Master-Slave 模式,防止 NameNode 成为单点故障,Failover Controller(故障切换器)的工作便是负责监控 NameNode 的状态与切换主从服务器。与此同时,为了能够快速从故障中恢复,每一次的数据读写删操作都会记录在 NameNode 上的 EditLog 中并同步到每个 JournalNode 节点。而 DataNode 节点则负责存储物理数据,为了应对不确定的故障,每一份数据默认被保存为 3 份,并分散在不同的 DataNode 中,而通过 Balancer 则可以平衡集群之间各节点的磁盘利用率,以防止某一个 DataNode 节点存储已满但是其它 DataNode 节点却可能为空的情况。
最后为了方便用户操作,HDFS 提供了 HttpFS 服务,用以通过 HTTP 方式访问 HDFS 服务的功能。默认的,你可以通过 http://[master namenode host]:50070/ 访问这个功能。
总的来说,HDFS 主要包含了 6 个服务,它们主要的功能如下:
- NameNode:负责管理文件系统的 namespace 以及客户端对文件的访问;
- DataNode:用于管理它所在节点上的存储;
- FailoverController:故障切换控制器,负责监控与切换 Namenode 服务;
- JournalNode:用于存储 EditLog;
- Balancer:用于平衡集群之间各节点的磁盘利用率;
- HttpFS:提供 HTTP 方式访问 HDFS 的功能。
通常而言,在关注 HDFS 架构时,总是关注 Namenode 和 Datanode 的架构,因为它们是 HDFS 的核心,也是客户端操作数据需要依赖的两个服务,所以再来看看 Namenode & Datanode 的架构吧。
NameNode & DataNode
在 HDFS 中,Namenode 是 HDFS 中的主节点,用于维护和管理 Datanode 上存在的 block。它是一个高度可用的服务器,用于管理文件的 namespace 并控制客户端对文件的访问。HDFS 体系的构建方式是,用户数据永远不会驻留在 Namenode 上,数据只会驻留在 Datanode 上。
Namenode 的功能:
- 它是维护和管理 Datanode 的主守护进程;
- 它记录存储在集群中的所有文件的元数据,例如 block 的位置、文件大小、权限、层次结构等。有两个文件与元数据关联:
FsImage:它包含自 Namenode 开始以来文件的 namespace 的完整状态;
EditLogs:它包含最近对文件系统进行的与最新 FsImage 相关的所有修改。 - 它记录了发生在文件系统元数据上的每个更改。例如,如果一个文件在 HDFS 中被删除&#