HDFS 全称 Hadoop 分布式文件系统，其最主要的作用是作为 Hadoop 生态中各系统的存储服务。

最新推荐文章于 2023-03-29 22:52:56 发布

天天看漫画

最新推荐文章于 2023-03-29 22:52:56 发布

阅读量4k

点赞数

任意创作

本文链接：https://blog.csdn.net/qq_36705705/article/details/106533470

版权

HDFS（Hadoop Distributed File System）是Hadoop生态中的存储服务，设计目标包括高度容错性和支持大规模数据集。其采用NameNode和DataNode的架构，数据以Block形式分散存储，每个Block有多个副本以保证容错。NameNode管理文件元数据，DataNode负责数据存储。数据写入通过管道设置、数据流和确认阶段完成，而数据读取则通过NameNode获取Block位置，直接从DataNode读取。HDFS还提供了心跳检测、block状态报告和数据重新复制以确保数据安全。

摘要由CSDN通过智能技术生成

HDFS

HDFS 全称 Hadoop 分布式文件系统，其最主要的作用是作为 Hadoop 生态中各系统的存储服务。

面对大规模的数据，HDFS 在设计上满足了以下目标：

高度容错性： HDFS 可能由成百上千的服务器构成，任何一个组件都可能失效，因此错误检测和快速、自动的恢复时 HDFS 最核心的架构目标。
支持大规模数据集：运行在 HDFS 应用具有很大的数据集，它应该能提供整体上高的数据传输带宽，并能支撑数以千万计的文件。
支持流式读取数据： HDFS 的设计更多的考虑到了数据批处理，而不是用户交互处理，比之数据访问延迟的问题，更关键的是数据访问的高吞吐量。
简单的一致性模型： “ 一次写入多次读取”的文件访问模型简化了数据一致性的问题，并且是高吞吐量称为可能。
移动计算而非移动数据：一个应用的请求，离它操作的数据越近就越高效，HDFS 提供了将它们自己移动到数据附近的接口。
异构软硬件平台间的可移植性：平台的可移植性，方便用户也方便 HDFS 作为大规模数据应用平台的推广。

架构与原理

在这里插入图片描述
如上图所示，HDFS 使用单一的 NameNode 节点简化了整体的设计，同时使用 Master-Slave 模式，防止 NameNode 成为单点故障，Failover Controller（故障切换器）的工作便是负责监控 NameNode 的状态与切换主从服务器。与此同时，为了能够快速从故障中恢复，每一次的数据读写删操作都会记录在 NameNode 上的 EditLog 中并同步到每个 JournalNode 节点。而 DataNode 节点则负责存储物理数据，为了应对不确定的故障，每一份数据默认被保存为 3 份，并分散在不同的 DataNode 中，而通过 Balancer 则可以平衡集群之间各节点的磁盘利用率，以防止某一个 DataNode 节点存储已满但是其它 DataNode 节点却可能为空的情况。

最后为了方便用户操作，HDFS 提供了 HttpFS 服务，用以通过 HTTP 方式访问 HDFS 服务的功能。默认的，你可以通过 http://[master namenode host]:50070/ 访问这个功能。

总的来说，HDFS 主要包含了 6 个服务，它们主要的功能如下：

NameNode：负责管理文件系统的 namespace 以及客户端对文件的访问；
DataNode：用于管理它所在节点上的存储；
FailoverController：故障切换控制器，负责监控与切换 Namenode 服务；
JournalNode：用于存储 EditLog；
Balancer：用于平衡集群之间各节点的磁盘利用率；
HttpFS：提供 HTTP 方式访问 HDFS 的功能。

通常而言，在关注 HDFS 架构时，总是关注 Namenode 和 Datanode 的架构，因为它们是 HDFS 的核心，也是客户端操作数据需要依赖的两个服务，所以再来看看 Namenode & Datanode 的架构吧。

NameNode & DataNode

在这里插入图片描述
在 HDFS 中，Namenode 是 HDFS 中的主节点，用于维护和管理 Datanode 上存在的 block。它是一个高度可用的服务器，用于管理文件的 namespace 并控制客户端对文件的访问。HDFS 体系的构建方式是，用户数据永远不会驻留在 Namenode 上，数据只会驻留在 Datanode 上。

Namenode 的功能：

它是维护和管理 Datanode 的主守护进程；
它记录存储在集群中的所有文件的元数据，例如 block 的位置、文件大小、权限、层次结构等。有两个文件与元数据关联：
FsImage：它包含自 Namenode 开始以来文件的 namespace 的完整状态；
EditLogs：它包含最近对文件系统进行的与最新 FsImage 相关的所有修改。
它记录了发生在文件系统元数据上的每个更改。例如，如果一个文件在 HDFS 中被删除，Namenode 会立即在 EditLog
中记录这个操作。

最低0.47元/天解锁文章

天天看漫画

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
HDFS 全称 Hadoop 分布式文件系统，其最主要的作用是作为 Hadoop 生态中各系统的存储服务。

HDFSHDFS 全称 Hadoop 分布式文件系统，其最主要的作用是作为 Hadoop 生态中各系统的存储服务。面对大规模的数据，HDFS 在设计上满足了以下目标：高度容错性： HDFS 可能由成百上千的服务器构成，任何一个组件都可能失效，因此错误检测和快速、自动的恢复时 HDFS 最核心的架构目标。支持大规模数据集：运行在 HDFS 应用具有很大的数据集，它应该能提供整体上高的数据传输带宽，并能支撑数以千万计的文件。支持流式读取数据： HDFS 的设计更多的考虑到了数据批处理，而不是用
复制链接

扫一扫