Hadoop核心-HDFS的架构

最新推荐文章于 2024-07-01 12:58:04 发布

qq_41858579

最新推荐文章于 2024-07-01 12:58:04 发布

阅读量550

点赞数 10

文章标签： hadoop hdfs 架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41858579/article/details/137834874

版权

HDFS的架构

HDFS是一个主从（Master/Slave）体系结构
HDFS由四部分组成，HDFS Client、NameNode、DataNode和Secondary NameNode。
在这里插入图片描述
1、Client：就是客户端
文件切分：文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行存储。
与NameNode交互：获取文件的位置信息
与DataNode交互：读取或者写入数据
Client提供一些命令来访问和管理HDFS，比如启动或者关闭HDFS

2、NameNode：
就是Master，它是一个主管、管理者
管理HDFS的名称空间
管理数据块（Block）映射信息
配置副本策略
处理客户端读写请求

3、DataNode：
就是Slave，NameNode下达命令，DataNode执行实际操作
存储实际的数据块
执行数据块的实际操作

4、Secondary NameNode：
并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务
辅助NameNode，分担其工作量
定期合并fsimage和fsedits，并推送给NameNode
在紧急情况下，可辅助恢复NameNode

1、NameNode和DataNode

1.1、NameNode作用

NameNode在内存中保存着整个文件系统的名称空间和文件数据块的地址映射
整个HDFS可存储的文件数受限于NameNode的内存大小

（1）NameNode元数据信息
文件名，文件目录结构，文件属性（生成时间，副本数，权限）每个文件的块列表。以及列表中的块与块所在的DataNode之间的地址映射关系在内存中加载文件系统中的每个文件和每个数据块的引用关系（文件、block、datanode之间的映射信息）数据会定期保存到本地磁盘（fslmage文件和edits文件）

（2）NameNode文件操作
NameNode负责文件元数据的操作，DataNode负责处理文件内容的读写请求，数据流不经过NameNode，会询问它跟哪个DataNode联系。

（3）NameNode副本
文件数据块到底存放到哪些DataNode上，是由NameNode决定的， NN根据全局情况做出放置副本的决定。

（4）NameNode心跳机制
全权管理数据块的复制，周期性的接受心跳和块的状态报告信息(包含该DataNode上所有数据块的列表)若接受到心跳信息，NameNode认为DataNode工作正常，如果在10分钟后还接受到不到DN的心跳，那么NameNode认为DataNode已经宕机 ,这时候NN准备要把DN上的数据块进行重新的复制。块的状态报告包含了一个DN上所有数据块的列表，blocks report每个1小时发送一次.

1.2、DataNode的作用

提供真实文件数据的存储服务
（1）DataNode以数据块的形式存储HDFS文件
（2）DataNode相应HDFS客户端的读写请求
（3）DataNode周期性的向NameNode汇报心跳信息
（4）DataNode周期性的向NameNode汇报数据块信息
（5）DataNode周期性的向NameNode汇报缓存数据块信息
在这里插入图片描述
备注：若经常被访问的数据，NameNode会将他放入到块缓存中，也就是内存中，提高访问速度
元数据：其实就是图中的a.txt的元数据信息下面的那些数据信息
因为文件的元数据都是存在namenode的内存中，所以一关机，元数据信息就会丢失，这时数据会定期保存到本地磁盘（就是fslmage文件和edits文件）

以上内容仅为个人学习记录，有错误请大家指出来，希望大家可以一起学习一起记录一起进步！

关注

10
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
Hadoop核心-HDFS的架构

全权管理数据块的复制，周期性的接受心跳和块的状态报告信息(包含该DataNode上所有数据块的列表)若接受到心跳信息，NameNode认为DataNode工作正常，如果在10分钟后还接受到不到DN的心跳，那么NameNode认为DataNode已经宕机 ,这时候NN准备要把DN上的数据块进行重新的复制。因为文件的元数据都是存在namenode的内存中，所以一关机，元数据信息就会丢失，这时数据会定期保存到本地磁盘（就是fslmage文件和edits文件）并非NameNode的热备。
复制链接

扫一扫

qq_41858579 CSDN认证博客专家 CSDN认证企业博客

码龄6年

11: 原创

46万+: 周排名

13万+: 总排名

5842: 访问

: 等级

190: 积分

63: 粉丝

78: 获赞

6: 评论

86: 收藏

私信

关注

热门文章

最新评论

HDFS 文件读取过程
CSDN-Ada助手: 恭喜您写了第10篇博客！标题为“HDFS 文件读取过程”内容非常有深度，让读者受益匪浅。希望您能继续坚持创作，分享更多有价值的知识给大家。下一步建议可以尝试探讨HDFS文件写入过程，或者深入研究HDFS的优化策略，让读者更全面地了解这个话题。期待您的更多精彩作品！愿您创作愈发顺利，为读者带来更多启发和帮助。
HDFS元数据辅助管理
CSDN-Ada助手: 恭喜您写下了第11篇博客《HDFS元数据辅助管理》，不断分享自己的学习成果，真的很让人钦佩！希望您能继续保持创作的热情，探索更多有关HDFS元数据管理的知识，或许可以结合实际案例进行分析，让读者更易于理解和应用。期待您的下一篇作品，加油！
HDFS的副本机制和机架感知
CSDN-Ada助手: 恭喜博主写了第7篇博客！标题“HDFS的副本机制和机架感知”很吸引人，内容也很有深度。希望博主能继续保持创作的热情和努力，可以考虑结合实际案例或者对比分析，让读者更加深入地了解HDFS的副本机制和机架感知。期待博主的下一篇作品！
Hadoop核心-HDFS的架构
CSDN-Ada助手: 恭喜您写了第6篇博客！继续坚持创作，对Hadoop核心-HDFS的架构有深入了解十分值得称赞。希望您在下一篇博客中可以深入探讨HDFS在大数据处理中的应用场景，这将为读者提供更加全面的了解。期待您更多精彩的文章，加油！
分布式技术
CSDN-Ada助手: 非常棒的博客！你对于分布式技术的解释非常清晰。你提到了故障转移系统和主备切换，这些都是确保系统可用性的重要措施。同时，你也指出了分布式和集群的共同点，即多台机器上部署不同或相同的组件。除了你提到的内容，还有一些相关的扩展知识和技能可以进一步了解。例如，你可以研究负载均衡技术，它可以将流量分发到不同的服务器上，以实现更好的性能和可伸缩性。你还可以学习分布式存储系统，如Hadoop和Cassandra，它们能够处理大规模数据并提供高可用性。继续创作，你的博客对读者来说是一个很好的学习资源！如果你需要更多的反馈或者有任何疑问，请随时提问。我们一起进步！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。