大数据入门-五分钟读懂HDFS，作为大数据开发开发程序员

最新推荐文章于 2024-04-13 23:32:56 发布

2301_79099378

最新推荐文章于 2024-04-13 23:32:56 发布

阅读量1k

点赞数 27

分类专栏：程序员文章标签：大数据 hdfs hadoop

本文链接：https://blog.csdn.net/2301_79099378/article/details/137727981

版权

程序员专栏收录该内容

30 篇文章 0 订阅

订阅专栏

大数据入门系列文章

=========

一、概念

====

HDFS英文全称为：Hadoop Distributed File System，是指被设计成适合运行在通用硬件的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

这里再强调一下几个特点，注意看黑板。

超大文件：可以存放TB到PB级别的数据量。

**流式访问：**一次写入，多次读取。更加关注所有数据集的查询时间。

**商用硬件：**机器都是普通的机器，可以组合起来一起使用，三个臭皮匠顶个诸葛亮。但是单节点故障会较多，所以要有一种机制和方法来迅速恢复业务。

**不适合低延时数据：**针对的问题和解决方案是高吞吐，所以不适合低延时数据，当然后面会有专门的低延时架构。所以问题出来了总有方案。不要慌。

不支持任意修改： 系统以读数据为主，支持在文末追加数据，不支持任意修改。

二、架构及组件概念

=========

**数据块：**默认一个块（block）的大小为128MB（HDFS的块这么大主要是为了最小化寻址开销），要在HDFS中存储的文件可以划分为多个分块，每个分块可以成为一个独立的存储单元。与本地磁盘不同的是，HDFS中小于一个块大小的文件并不会占据整个HDFS数据块。

**NameNode：**管理整个文件系统的元数据。例如管理元数据，维护维护目录结构、响应客户端请求。

详解说明：NameNode作为管理节点，它负责整个文件系统的命名空间，并且维护着文件系统树和整棵树内所有的文件和目录，这些信息以两个文件的形式（命名空间镜像文件和编辑日志文件）永久存储在NameNode的本地磁盘上。除此之外，同时，NameNode也记录每个文件中各个块所在的数据节点信息，但是不永久存储块的位置信息，因为块的信息可以在系统启动时重新构建。

**DataNode：**复制管理用户的文件数据块。例如管理用户提交的数据心跳机制块报告。

**NameNode容错性：**NameNode作为管理节点，它的地位是非同寻常的，一旦NameNode宕机，那么所有文件都会丢失，因为NameNode是唯一存储了元数据、文件与数据块之间对应关系的节点，所有文件信息都保存在这里，NameNode毁坏后无法重建文件。

第一种机制是备份那些组成文件系统元数据持久状态的文件，比如：将文件系统的信息写入本地磁盘的同时，也写入一个远程挂载的网络文件系统（NFS），这些写操作实时同步并且保证原子性。

第二种机制是运行一个辅助NameNode，用以保存命名空间镜像的副本，在NameNode发生故障时启用。（也可以使用热备份NameNode代替辅助NameNode）。

**心跳机制：**维护集群的可用性

NameNode启动的时候，会有一个加载元数据（数据的数据，类似于表的索引）和块报告（DataNode会定时（可以再配置文件中设置，所以一定要时间同步）对块信息进行统计）的过程，NameNode通过心跳机制维护整个集群的可用性。如果块报告上传失败，NameNode不会更新元数据，在块报告的时候就会将其删除掉。

**块缓存：**数据通常情况下都保存在磁盘，但是对于访问频繁的文件，其对应的数据块可能被显式的缓存到DataNode的内存中，以堆外缓存的方式存在，一些计算任务（比如MapReduce）可以在缓存了数据的DataNode上运行，利用块的缓存优势提高读操作的性能。

**高可用性：**通过备份NameNode存储的文件信息或者运行辅助NameNode可以防止数据丢失，但是依旧没有保证了系统的高可用性。一旦NameNode发生了单点失效，那么必须能够快速的启动一个拥有文件系统信息副本的新NameNode。

这个就是主NameNode与备份的NameNode之间的交互了。

**存放策略：**默认的HDFS block放置策略在最小化写开销和最大化数据可靠性、可用性以及总体读取带宽之间进行了一些折中。一般情况下复制因子为3，HDFS的副本放置策略是将第一个副本放在本地节点，将第二个副本放到本地机架上的另外一个节点而将第三个副本放到不同机架上的节点。这种方式减少了机架间的写流量，从而提高了写的性能。机架故障的几率远小于节点故障。这种方式并不影响数据可靠性和可用性的限制，并且它确实减少了读操作的网络聚合带宽，因为文件块仅存在两个不同的机架，而不是三个。文件的副本不是均匀地分布在机架当中，1/3在同一个节点上，1/3副本在同一个机架上，另外1/3均匀地分布在其他机架上。这种方式提高了写的性能，并且不影响数据的可靠性和读性能。

三、读写流程

======

写数据流程

读数据流程

四、大白话

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数大数据工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

（备注大数据获取）**
[外链图片转存中…(img-YGNgR7hg-1713020413305)]

2301_79099378

关注

27
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
大数据入门-五分钟读懂HDFS，作为大数据开发开发程序员

NameNode启动的时候，会有一个加载元数据（数据的数据，类似于表的索引）和块报告（DataNode会定时（可以再配置文件中设置，所以一定要时间同步）对块信息进行统计）的过程，NameNode通过心跳机制维护整个集群的可用性。**块缓存：**数据通常情况下都保存在磁盘，但是对于访问频繁的文件，其对应的数据块可能被显式的缓存到DataNode的内存中，以堆外缓存的方式存在，一些计算任务（比如MapReduce）可以在缓存了数据的DataNode上运行，利用块的缓存优势提高读操作的性能。
复制链接

扫一扫