大数据入门-五分钟读懂HDFS，2024年最新腾讯+华为+阿里面试真题分享

最新推荐文章于 2024-07-18 09:58:45 发布

2301_82243558

最新推荐文章于 2024-07-18 09:58:45 发布

阅读量616

点赞数 10

分类专栏： 2024年程序员学习文章标签：大数据 hdfs 面试

本文链接：https://blog.csdn.net/2301_82243558/article/details/137899803

版权

2024年程序员学习专栏收录该内容

79 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）

正文

**商用硬件：**机器都是普通的机器，可以组合起来一起使用，三个臭皮匠顶个诸葛亮。但是单节点故障会较多，所以要有一种机制和方法来迅速恢复业务。

**不适合低延时数据：**针对的问题和解决方案是高吞吐，所以不适合低延时数据，当然后面会有专门的低延时架构。所以问题出来了总有方案。不要慌。

不支持任意修改： 系统以读数据为主，支持在文末追加数据，不支持任意修改。

二、架构及组件概念

=========

**数据块：**默认一个块（block）的大小为128MB（HDFS的块这么大主要是为了最小化寻址开销），要在HDFS中存储的文件可以划分为多个分块，每个分块可以成为一个独立的存储单元。与本地磁盘不同的是，HDFS中小于一个块大小的文件并不会占据整个HDFS数据块。

**NameNode：**管理整个文件系统的元数据。例如管理元数据，维护维护目录结构、响应客户端请求。

详解说明：NameNode作为管理节点，它负责整个文件系统的命名空间，并且维护着文件系统树和整棵树内所有的文件和目录，这些信息以两个文件的形式（命名空间镜像文件和编辑日志文件）永久存储在NameNode的本地磁盘上。除此之外，同时，NameNode也记录每个文件中各个块所在的数据节点信息，但是不永久存储块的位置信息，因为块的信息可以在系统启动时重新构建。

**DataNode：**复制管理用户的文件数据块。例如管理用户提交的数据心跳机制块报告。

**NameNode容错性：**NameNode作为管理节点，它的地位是非同寻常的，一旦NameNode宕机，那么所有文件都会丢失，因为NameNode是唯一存储了元数据、文件与数据块之间对应关系的节点，所有文件信息都保存在这里，NameNode毁坏后无法重建文件。

第一种机制是备份那些组成文件系统元数据持久状态的文件，比如：将文件系统的信息写入本地磁盘的同时，也写入一个远程挂载的网络文件系统（NFS），这些写操作实时同步并且保证原子性。

第二种机制是运行一个辅助NameNode，用以保存命名空间镜像的副本，在NameNode发生故障时启用。（也可以使用热备份NameNode代替辅助NameNode）。

**心跳机制：**维护集群的可用性

NameNode启动的时候，会有一个加载元数据（数据的数据，类似于表的索引）和块报告（DataNode会定时（可以再配置文件中设置，所以一定要时间同步）对块信息进行统计）的过程，NameNode通过心跳机制维护整个集群的可用性。如果块报告上传失败，NameNode不会更新元数据，在块报告的时候就会将其删除掉。

**块缓存：**数据通常情况下都保存在磁盘，但是对于访问频繁的文件，其对应的数据块可能被显式的缓存到DataNode的内存中，以堆外缓存的方式存在，一些计算任务（比如MapReduce）可以在缓存了数据的DataNode上运行，利用块的缓存优势提高读操作的性能。

**高可用性：**通过备份NameNode存储的文件信息或者运行辅助NameNode可以防止数据丢失，但是依旧没有保证了系统的高可用性。一旦NameNode发生了单点失效，那么必须能够快速的启动一个拥有文件系统信息副本的新NameNode。

这个就是主NameNode与备份的NameNode之间的交互了。

**存放策略：**默认的HDFS block放置策略在最小化写开销和最大化数据可靠性、可用性以及总体读取带宽之间进行了一些折中。一般情况下复制因子为3，HDFS的副本放置策略是将第一个副本放在本地节点，将第二个副本放到本地机架上的另外一个节点而将第三个副本放到不同机架上的节点。这种方式减少了机架间的写流量，从而提高了写的性能。机架故障的几率远小于节点故障。这种方式并不影响数据可靠性和可用性的限制，并且它确实减少了读操作的网络聚合带宽，因为文件块仅存在两个不同的机架，而不是三个。文件的副本不是均匀地分布在机架当中，1/3在同一个节点上，1/3副本在同一个机架上，另外1/3均匀地分布在其他机架上。这种方式提高了写的性能，并且不影响数据的可靠性和读性能。

三、读写流程

======

写数据流程

读数据流程

四、大白话

=====

这个东西就是为了解决数据量大而出来的，其思想是利用多个机器联合的力量来构造一个庞大的集群，让作业在各个机器上面运行，然后汇总到一个地方。当然每个机器是比较菜鸡的，但是菜鸡多了，每个人贡献一点，整个组织的力量就大了。这个和我们现在组织一样，有个领导者，就是NameNode，来管理我们的职员DataNode，你今天做了什么工作，写个日报给我，每天用心跳机制提醒一个，你应该写日报了。然后他能知道每个职员的情况。当然这里不能严格的类比，因为每个职员都不一样，但是DataNode是一样的。复制策略就是说，你走了我再招人培养，当然一般的老板不会这样做，花费人力成本太高了，但是当市场上这样的人多了之后，其实你就可以随时被替换了，所以好好学习，天天向上吧，毕竟还有吃饭。我们只有把自己的独特性弄出来之后，你就成为唯一的，且不能被辞掉的那个人了。

五、其他

====

**下一篇：**介绍数据仓库Hive。

**鸡汤：**今日事，今日毕。

**备注：**以上资料来自网络，侵删。

参考资料

https://blog.csdn.net/qq_43755771/article/details/90725393

https://www.cnblogs.com/gzshan/p/10981007.html

来来来，看这里，如果你觉得这篇文章对您有帮助，请关注点赞加收藏，想要了解更多请关注公众号联系博主，祝您生活愉快，身心健康！

大数据入门系列文章

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip204888 （备注大数据）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

：vip204888 （备注大数据）**
[外链图片转存中…(img-ultJWI02-1713389990086)]

2301_82243558

关注

10
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
大数据入门-五分钟读懂HDFS，2024年最新腾讯+华为+阿里面试真题分享

NameNode启动的时候，会有一个加载元数据（数据的数据，类似于表的索引）和块报告（DataNode会定时（可以再配置文件中设置，所以一定要时间同步）对块信息进行统计）的过程，NameNode通过心跳机制维护整个集群的可用性。**块缓存：**数据通常情况下都保存在磁盘，但是对于访问频繁的文件，其对应的数据块可能被显式的缓存到DataNode的内存中，以堆外缓存的方式存在，一些计算任务（比如MapReduce）可以在缓存了数据的DataNode上运行，利用块的缓存优势提高读操作的性能。
复制链接

扫一扫