HDFS 的架构

最新推荐文章于 2023-12-19 07:00:00 发布

fql123455

最新推荐文章于 2023-12-19 07:00:00 发布

阅读量1.6k

点赞数 3

分类专栏： Hadoop 文章标签： HDFS 架构

本文链接：https://blog.csdn.net/fql123455/article/details/99429560

版权

Hadoop 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1.什么是HDFS

HDFS(Hadoop Distributed File System):分布式系统，类似于其他的分布式文件系统，HDFS支持高度容错，可以部署在廉价的硬件设备上，特别适宜大型的数据集的分布式存储。

2.HDFS的架构

在这里插入图片描述

HDFS采⽤用master/slave架构。⼀一个HDFS集群是由⼀一个Namenode和⼀一定数⽬目的Datanodes组成。Namenode是一个中心服务器器，负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。集群中的Datanode一般是一个节点一个，负责管理它所在节点上的存储。HDFS暴露了文件系统的名字空间，⽤用户能够以文件的形式在上⾯面存储数据。从内部看，一个文件其实被分成一个或多个数据块，这些块存储在⼀一组Datanode上。Namenode执行行文件系统的名字空间操作，比如打开、关闭、重命名文件或⽬目录。它也负责确定数据块到具体Datanode节点的映射。Datanode负责处理理⽂文件系统客户端的读写请求。在Namenode的统⼀一调度下进⾏行行数据块的创建、删除和复制。

Namenode:存储系统元数据、namespace 、管理datanode 、接受datanode状态汇报。
Datanode:存储块数据、响应客户端的块的读写、接收namespace的块管理指令。
Block: HDFS 存储数据的基本单位，默认128MB,实际块大小 0-128MB。
Rack：机架、对datanode所在主机的物理标识、标识主机的位置，优化存储和计算。
元数据按类型和形式划分
1. 文件、目录自身的属性信息，例如文件名、目录名、修改信息等。
2. 文件记录的信息的存储相关信息，例如存储块信息、分块情况、副本个数等。
3. 记录HDFS的DataNode的信息，用于DataNode的管理。
4. 按形式分为内存元数据和元数据文件，分别存在内存和磁盘上。

3.HDFS 的存储流程

在这里插入图片描述

业务应用调用HDFS Client 提供的API创建文件，请求写入。
HDFS Client 联系NameNode,NameNode 在元数据中创建文件节点。
业务应用调用write API 写入文件。
HDFS Client 收到业务数据后，从NameNode获取数据库编号、位置信息后，联系DateNode，并将要写入数据的DateNode j建立起流水线。完成后，客户端再通过自有协议写入数据到DateNode1,再由DataNode1复制到DateNode2,DataNode3.
写完的数据，将返回确认信息给HDFS Client.
所有的数据确认完成后，业务调用HDFS Client关闭文件。
业务调用close ,flush后 HDFS Client 联系NameNode,确认数据写完成，NameNode持久化数据。

4.HDFS 读取流程

在这里插入图片描述

业务调用HDFS Client 提供的API打开文件。
HDFS Client 联系NameNode，获取到文件信息（数据块、DataNode位置信息）。
业务应用调用read API读取文件。
HDFS Client根据从NmaeNode获取到的信息，联系DateNode，获取相应的数据块。（Client采用就近原则读取数据）。
HDFS Client会与多个DateNode通讯获取数据块。
数据读取完成后，业务调用close关闭连接。

5.HDFS常见问题

1.为什么HDFS不适合小文件存储

在这里插入图片描述
由图可以看出：小文件过多，会过多的占用namenode的内存，并浪费block; HDFS适用于高吞吐量，而不适合低时间延迟的访问，文件过小，寻址时间大于数据读取时间，不符合HDFS的设计原则。

fql123455

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
HDFS 的架构

1.什么是HDFSHDFS(Hadoop Distributed File System):分布式系统，类似于其他的分布式文件系统，HDFS支持高度容错，可以部署在廉价的硬件设备上，特别适宜大型的数据集的分布式存储。2.HDFS的架构HDFS采⽤用master/slave架构。⼀一个HDFS集群是由⼀一个Namenode和⼀一定数⽬目的Datanodes组成。Namenode是一个...
复制链接

扫一扫

专栏目录