Hadoop之HDFS——，2024年最新技术实现

最新推荐文章于 2024-08-27 15:06:45 发布

2401_84164576

最新推荐文章于 2024-08-27 15:06:45 发布

阅读量619

点赞数 19

分类专栏： 2024年程序员学习文章标签： hadoop hdfs 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84164576/article/details/137486772

版权

2024年程序员学习专栏收录该内容

104 篇文章 4 订阅

订阅专栏

block:真实的数据存储的位置，Block是对于文件内容组织而言的，按照固定大小，顺序对文件进行划分并编号，划分好的每一个块就称之为一个Block。

三、namenode的功能

1、管理HDFS命名空间（文件目录树及其目录与文件的元数据），并以fsimage进行持久化保存。

2、处理客户端的访问，并将修改动作记录到edits文件中。

3、在内存中维护数据块的映射信息，即块文件与datanode的对应关系,namenode只在内存中维护此关系，不会永久化到磁盘上，因此在集群刚启动是，namenode中并没有块文件与datanode的对应关系，需要datanode上报自身的块文件信息后，才可以正常工作。

4、实施副本冗余策略，当实际副本数小于配置数时，会启动复制块的线程，直到个数达配置数。

四、namenode的启动过程

加载预先生成的持久化文件fsimage。
加载没有完成处理的edit log文件。
等待DataNode注册和汇报其所包含的block数据，校验meta信息和block数据是否一致。

五、datanode的全量上报过程

DataNode启动后通过RPC方式向NameNode注册，注册时携带的信息有：Software Version(当前DataNode版本号) storageInfo（集群信息）DataNodeId（节点自身信息）
全量上报当前DataNode所有的block块信息，包括block ID、所属文件、存储位置等，目的分别是使用NameNode维护集群数据，与meta进行校验。

维护集群数据：NameNode需要知道集群中每个DataNode上存储了哪些block块以及其所属的文件信息，以便在需要时能够有效地管理和调度这些数据块。DataNode会周期性地向NameNode报告自己所存储的所有block块的信息，包括block ID、所属文件、存储位置等。
校验meta：在Hadoop集群中，为了确保数据的一致性和完整性，通常会使用Checksum来对数据进行校验。当DataNode上报block块信息时，NameNode会使用这些信息来验证各个DataNode上的block块是否完整、准确，并且与元数据中记录的信息一致。这样可以确保数据在集群中的可靠性。

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数大数据工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）

（备注大数据获取）**
[外链图片转存中…(img-mGe7ckvz-1712519216548)]

关注

19
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。