《Hadoop》"呶呶不休"（二）HDFS体系结构概述

最新推荐文章于 2021-07-08 23:52:40 发布

从明老师

最新推荐文章于 2021-07-08 23:52:40 发布

阅读量642

点赞数

分类专栏： hadoop 大数据文章标签： HDFS体系结构体系结构图副本存储策略元数据的持久性 fsimage和editlog

本文链接：https://blog.csdn.net/michael__one/article/details/86407995

版权

本文深入探讨HDFS的体系结构，包括Client、Namenode、Datanode和SecondaryNamenode的角色。Namenode作为核心管理者，负责元数据管理和客户端访问，Datanode存储数据块并定期发送心跳。SecondaryNamenode协助Namenode进行元数据合并，减少editlog大小。HDFS采用主从结构，保证高效的数据访问和管理。

摘要由CSDN通过智能技术生成

在上一章中，我们了解了HDFS的设计思想，从而引出了一些相关概念，比如块、名称节点（Namenode）、数据节点（Datanode）、还有SecondaryNamenode等等。在这一章，我们从HDFS的整体结构上再来全面了解一下。

一、体系结构简介

HDFS 采用的是master/slaves这种主从的结构模型来管理数据，这种结构模型主要由四个部分组成，分别是Client(客户端)、Namenode(名称节点)、Datanode(数据节点)和SecondaryNameNode(第二节点，上面的图解中没有涉及到，下面会讲解)。真正的一个HDFS集群包括一个Namenode和若干数目的Datanode。Namenode是一个中心服务器，负责管理文件系统的命名空间 (Namespace )及客户端对文件的访问。集群中的Datanode一般是一个节点运行一个DataNode进程，负责管理客户端的读写请求，在Namenode的统一调度下进行数据块的创建、删除和复制等操作。数据块实际上都是保存在Datanode本地的Linux文件系统中的。每个Datanode会定期的向Namenode发送数据，报告自己的状态(我们称之为心跳机制)。没有按时发送心跳信息的Datanode会被Namenode标记为“宕机”，不会再给他分配任何I/O请求。

用户在使用Client进行I/O操作时,仍然可以像使用普通文件系统那样，使用文件名去存储和访问文件，只不过，在HDFS内部，一个文件会被切分成若干个数据块，然后被分布存储在若干个Datanode上。

比如，用户在Client上需要访问一个文件时，HDFS的实际工作流程如此：客户端先把文件名发送给Namenode，Namenode根据文件名找到对应的数据块信息及其每个数据块所在的Datanode位置，然后把这些信息发送给客户端。之后，客户端就直接与这些Datanode进行通信，来获取数据（这个过程，Namenode并不参与数据块的传输）。这种设计方式，实现了并发访问，大大提高了数据的访问速度。

HDFS集群中只有唯一的一个Namenode,负责所有元数据的管理工作。这种方式保证了Datanode不会脱离Namenode的控制，同时，用户数据也永远不会经过Namenode，大大减轻了Namenode的工作负担，使之更方便管理工作。通常在部署集群中，我们要选择一台性能较好的机器来作为Namenode。当然，一台机器上也可以运行多个Datanode，甚至Namenode和Datanode也可以在一台机器上，只不过实际部署中，通常不会这么做的哦。