HDFS初学笔记

最新推荐文章于 2025-10-03 23:10:57 发布

原创最新推荐文章于 2025-10-03 23:10:57 发布 · 1k 阅读

2 ·

CC 4.0 BY-SA版权

大数据专栏收录该内容

4 篇文章

订阅专栏

本文全面介绍了Hadoop分布式文件系统（HDFS）的核心概念与工作原理，包括其支持的大规模文件处理、流数据读取特性，以及如何通过多副本机制确保数据的可靠性和可用性。深入探讨了HDFS的架构组成，如名称节点、数据节点和第二名称节点的功能与作用，以及数据存储、错误恢复机制。

HDFS概述

Hadoop分布式文件系统（Hadoop Distributed File System，HDFS），Hadoop项目（另一个是Mapreduce）的两大核心之一。

HDFS支持流数据读取和处理超大规模文件，并能够运行在廉价的普通的机器的集群之上（解决了电脑的性能不足问题，因为硬件出错在普通服务器集群中是一种常态，而不是异常）

分布文件系统结构

（*)在hdfs中，会将我们的文件以[块]为单位进行切分。
在hdfs2当中默认的块为128M ,在hdfs1当中默认的块为64M，块的大小可以自定义。

（*）块是如何占用磁盘空间时会先从头切一个128m的块。如果实际的大小如果大于128M的文件，后面小于128m的占用实际的大小

HDFS特点

（1）兼容廉价的硬件设备。在这些普通的服务器上经常会出现节点失效的情况，所以HDFS还有检测与自动恢复的机制。
（2）流数据读写。因为大数据需要随机读写以及与用户进行交互。
（3）大数据集。HDFS的数据通常可以达到TB级别。
（4）简单的文件模型。一次写入、多次读取。
（5）跨平台兼容性。HDFS是采用Java语言实现的，所以拥有很好的平台兼容能力。
（6）不适合低延迟数据访问。
（7）无法高效存储大量小文件
（8）不支持多用户写入及任意修改文件。只允许一个文件有一个写入者。

名称节点和数据节点

名称节点

主节点（Master Node）也被称为"名称节点"（Name Node），负责管理分布式文件系统的命名空间（Namespace），保存了两个核心的数据结构，FsImage和EditLog。

FsImage用于维护文件系统树以及文件数中所有的文件和文件夹的元数据。
操作日志文件EditLog中记录了所有针对文件的创建、删除、重命名等操作。
名称节点在启动时，会将FsImage加载到内存中，然后执行EditLog 文件中的各项操作，使内存的元数据保持最新。

功能：我们在获取某个文件的时候，只知道文件的名称，具体有哪些块用户是不知道的。所以需要有一个功能模块来管理文件中有哪些块。 NameNode来管理这些信息，NameNode也称之为hdfs当中的主节点在默认结构当中，不管服务器有多少台，NameNode只有一个

数据节点

数据节点（DataNode）是HDFS的工作节点，负责数据的存储和读取，存储了HDFS的文件块。在部署时优先提供存储空间较大的服务器（允许有多个DataNode同时存在）

DataNode采用心跳机制，每间隔一段时间，向NameNode设备发起设备正常的信息，如果NameNode在一定时间没有收到DataNode的信息，就会将该DataNode标记为不可用。

第二名称节点

已知，HDFS的更新操作都是直接写在EditLog文件、NameNode重启后执行其中各项内容，使得内存中的数据达到最新。
但是存在于一个问题，随着操作数得增加，EditLog的文件大小会逐渐增大，每次重启会花费大量的时间用于执行EditLog中的操作（名称节点进入安全模式），无法正常对外提供读写操作。

所以采取第二名称节点（SecondNameNode），具有两方面功能：1.完成EditLog与FsImage的合并；2.作为名称节点的检查点，保存名称节点中的元数据信息。

具体流程：
（1）每隔一段时间第二名称节点（SNN）向名称节点（NN）发出合并通知，停止使用EditLog。停止EditLog的这个时间的段的读写操作写在EditLog.new中。
（2）SNN把NN中的FsImage和EditLog放入本地，再加载到内存。
（3）SNN在内存中逐条执行EditLog中的操作，让FsImage中的数据达到最新。
（4）SNN将合并后的FsImage发送给NN。
（5）NN用新的FsImage替换旧的文件，用EditLog.new替换EditLog成为新的EditLog。
在这里插入图片描述

HDFS的储存原理

数据的冗余存储

为了保证系统的容错性和可用性，HDFS采用了多副本方式对数据进行冗余存储（伪分布式下为1，书上默认文件块副本数为3，是因为是全分布的情况下），通常一个数据块的多个副本会被分布到不同的数据节点上。

多副本方式的优点：

加快数据传输速度。客户能从多个数据副本处访问数据。
容易检查数据错误。HDFS各个数据节点之间会进行通信，能够判断数据传输。
保证数据的可靠性。单个的数据节点故障，也能够从副本处获取数据。

数据存取策略

1.数据存放：为了提高数据的可靠性与系统的可用性，以及充分利用网络带宽，HDFS采用了以机架（Rock）为基础的数据存放策略。
2.数据存取：HDFS提供了一个API可以确定一个数据节点所属的机架ID，客户端也可以调用API获取自己所属的机架ID。
3.数据复制：HDFS的数据复制采用了流水线复制的策略，大大提高了数据复制过程的效率。