大数据小白初探HDFS架构原理：带你揭秘背后的真相（一）

最新推荐文章于 2024-07-11 16:53:39 发布

程序员阿奇

最新推荐文章于 2024-07-11 16:53:39 发布

阅读量1k

点赞数 24

分类专栏： Hadoop 文章标签：大数据 hdfs 架构原理 EditLog checkpoint FsImage

本文链接：https://blog.csdn.net/shendixiaoxuan/article/details/135743228

版权

1.前言

前面的文章写了一篇，大数据方面的基础知识，目的是希望大数据小白可以对大数据能有个清楚的认识，我们前面提到了大数据的本质，其实就是分布式系统，各种分布式的系统，相信读了上一篇文章后，能够对大数据清楚的认识，如果还没有读的，快去读一下吧。

大数据小白初探HDFS从零到入门（一）

好了，我们再回顾下HDFS的基本概念。

2. HDFS架构

2.1 架构定义

HDFS（Hadoop Distributed File System）是 Hadoop 生态系统中的基础组件，它提供了分布式文件系统的实现，能够在廉价的机器上构建大规模、高容错性的分布式文件系统。

HDFS 的设计目标是高可靠性、高吞吐量和高容错性，它采用了 Master/Slave 架构，其中 NameNode 负责管理文件系统的元数据，DataNode 负责存储文件数据。 HDFS 的架构比较简单，但是它的设计思想非常巧妙，它通过采用一系列的设计和优化，在廉价的机器上实现了高可靠性、高吞吐量和高容错性。本文将详细介绍 HDFS 的架构原理，帮助你更好地理解 HDFS。

2.2 揭秘架构

上文中是HDFS架构的定义，我们在揭秘上面的定义之前，先来回想下大数据诞生的背景，是由于数据量的增多，存储 + 计算的难题，存储在过去即便可以跟的上，Orcale 的高昂的硬件使用费维护费（SSD固态和普通硬盘的价格），DBA的高额的人力成本投入，都让存储这块变得捉襟见肘，再加上数据量的巨增，计算耗时拉长，让人难以接受，这些问题推动了，大数据技术的衍生。因此HDFS 在设计之初，就是要在普通的机器上运行（可以降低成本），而普通机器的出问题概率高因此高可靠、高容错性也就很关键，并且使大规模的扩容变的很容易，易于维护，并且具有高吞吐的特性，这些都得益于，HDFS优秀的设计思想，它通过采用一系列的设计和优化。

我们理解了他的设计初衷，设计背景，他优秀的设计又是什么呢？

我们先看下他的结构，从架构设计上，采用了非常经典的“Master/Slave ”架构设计，想要了解的可以看下我写的普及主从设计模式的文章。

小白初探架构模式—常用的设计模式我们接着往下看。

我们先引入几个问题：hdfs 是分布式文件系统，他是个文件系统，就是类似linux 系统的东西，我们想哈，文

最低0.47元/天解锁文章

程序员阿奇

关注

24
点赞
踩
26

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据小白初探HDFS架构原理：带你揭秘背后的真相（一）

前面的文章写了一篇，大数据方面的基础知识，目的是希望大数据小白可以对大数据能有个清楚的认识，我们前面提到了大数据的本质，其实就是分布式系统，各种分布式的系统，相信读了上一篇文章后，能够对大数据清楚的认识，如果还没有读的，快去读一下吧。大数据小白初探HDFS从零到入门（一）好了，我们再回顾下HDFS的基本概念。HDFS（Hadoop Distributed File System）是 Hadoop 生态系统中的基础组件，它提供了分布式文件系统的实现，能够在廉价的机器上构建大规模、高容错性的分布式文件系统。
复制链接

扫一扫