HDFS

最新推荐文章于 2021-07-23 19:00:00 发布

AI算法攻城狮

最新推荐文章于 2021-07-23 19:00:00 发布

阅读量649

点赞数 1

分类专栏： # 深入浅出大数据

深入浅出大数据专栏收录该内容

57 篇文章 233 订阅 ¥99.90 ¥299.90

订阅专栏

HDFS是Apache Hadoop Core项目的一部分，设计用于在通用硬件上运行，提供流式数据操作，处理超大文件。它具有高容错、高吞吐、易扩展和高可靠性的特点。HDFS采用主/从结构，由Namenode管理命名空间和数据块映射，Datanode存储数据块。用户通过客户端与Namenode和Datanode交互进行文件系统操作。HDFS适用于大规模数据集的应用，与Spark等大数据处理框架配合良好。

摘要由CSDN通过智能技术生成

HDFS(Hadoop Distributed File System，Hadoop分布式文件系统)最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的，是Apache Hadoop Core项目的一部分。HDFS被设计为可以运行在通用硬件（commodity hardware）上、提供流式数据操作、能够处理超大文件的分布式文件系统。HDFS具有高度容错、高吞吐量、容易扩展、高可靠性等特征，为大型数据集的处理提供了强有力的工具。

HDFS是一个主/从(Master/Slave)体系结构的分布式系统，如图所示，HDFS集群拥有Namenode和一些Datanode，用户可以通过HDFS客户端同Namenode 和Datanodes交互以访问文件系统。

在HDFS中，Namenode是HDFS的Master节点，负责管理文件系统的命名空间（namespace），以及数据块到具体Datanode节点的映射等信息。集群中的Datanode一般是一个节点一个，负责管理它所在节点上的存储。从内部看，一个文件其实被分成一个或多个数据快，这些块存储在一组Datanode上，Datanode会以本地文件的形式保存这些数据块以及数据块的检验信息。

用户能够通过HDFS客户端发起读写HDFS的请求，同时还能通过HDFS客户端执行文件系统的命名空间操作，比如打开、关闭、重命名文件或目录。Namenode会响应这些请求，更改命名空间以及数据块的映射信息，然后指导Datanode处理文件HDFS客户端的读写请求。

Hadoop分布式文件系统（HDFS）是一种广泛使用的文件系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。Spark能够很好地使用它。HDFS被设计为可以在廉价的硬件上工作，有弹性地应对节点失败，同时提高吞吐量。Spark和HDFS可以部署在同一批机器上，这样Spark可以利用数据分布来尽量避免一些网络开销。