大数据学习篇：hadoop深入浅出系列之HDFS（二）——HDFS体系结构

最新推荐文章于 2024-05-01 02:15:42 发布

你所有承诺

最新推荐文章于 2024-05-01 02:15:42 发布

阅读量1.6k

点赞数 2

分类专栏：大数据系列 hadoop深入浅出文章标签： Hadoop2 HDFS体系结构 HDFS体系结构 HDFS2体系结构 hadoop2 HDFS讲解 HDFS深入浅出

本文链接：https://blog.csdn.net/stronglyh/article/details/48638859

版权

大数据系列同时被 2 个专栏收录

12 篇文章 1 订阅

订阅专栏

hadoop深入浅出

5 篇文章 8 订阅

订阅专栏

上一篇文章，我们说了HDFS的简介和优缺点,这篇文章我们来探讨下HDFS的体系结构

先上一张美图供大家欣赏。

通过这张图，我们可以清晰的看到HDFS的体系结构，client，NameNode，DataNode等，进入到hdf文件下也可以看到几个对应的文件夹（如下图）

这个路径是可变的，具体查看配置文件hdfs-site.xml中dfs.namenode.name.dir和dfs.namenode.edits.dir的值，如果没有就去hdfs-default.xml文件中找。在集群中，这个值要配置多个，每个值之间用“ ， ”隔开，被配置的目录下的文件是一样的。这是HDFS高可靠性的一种展示。

一：NameNode：

NameNode是整个文件系统的管理节点。它可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。l Masterl 管理HDFS的名称空间l 管理数据块映射信息l 配置副本策略l 处理客户端读写请求

进入/usr/local/hadoop-2.6.0/tmp/dfs/name/current文件夹中，就可以看到很多文件

NameNode维护着整个文件系统的文件目录树，文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。

文件主要包含了以下几个文件

a1）fsimage文件，这个是元数据镜像文件，存储某一段时间NameNode内存元数据信息

a2）edits文件，这个是操作日志文件

a3）fstime，保存最近一次checkpoint的时间

二：Secondary namenode

并非NameNode的热备；辅助NameNode，分担其工作量；定期合并fsimage和fsedits，推送给NameNode；在紧急情况下，可辅助恢复NameNode。这个在hadoop1的时候还是比较有用的，在hadoop2下会有两个namenode，所以这个也就没啥用了，后面会出HA有关文章，具体介绍hadoop2集群安装相关内容。

三：DataNode

b1）提供真实文件数据的存储服务。
b2）文件块（block）：最基本的存储单位。对于文件内容而言，一个文件的长度大小是size，那么从文件的０偏移开始，按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块称一个Block。HDFS默认Block大小是128MB（在hadoop1中是64M），以一个256MB文件为例，共有256/128=2个Block.
b3）不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间
b4）Replication。多复本。默认是三个。

四：Client

文件切分与NameNode交互，获取文件位置信息；与DataNode交互，读取或者写入数据；管理HDFS；访问HDFS。（后面会有具体文章讲述）

HDFS client上传数据到HDFS时，会首先在本地缓存数据，当数据达到一个block大小时，请求NameNode分配一个block。NameNode会把block所在的DataNode的地址告诉HDFS client。HDFS client会直接和DataNode通信，把数据写到DataNode节点一个block文件中。