分布式文件系统HDFS（1）

最新推荐文章于 2024-10-08 11:26:52 发布

seeseaXi

最新推荐文章于 2024-10-08 11:26:52 发布

阅读量298

点赞数 5

文章标签： hdfs hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/seeseaXi/article/details/137942156

版权

本文详细介绍了Hadoop分布式文件系统(HDFS)的组成部分（如NameNode、DataNode和SecondaryNameNode），元数据的作用，以及NameNode的工作机制。同时，对比了HDFS在高容错性、批量处理、数据模型和成本效益方面的优势，以及在低延迟访问、小文件存储和并发写入方面的局限性。

摘要由CSDN通过智能技术生成

这里是根据自己课上的学习资料总结出来的内容，分享提供给大家学习

（内容有点多，分几篇来写）

HDFS角色

Client：客户端

NameNode (NN)：元数据节点

管理文件系统的Namespace/元数据

一个HDFS集群只有一个Active的NN

DataNode (DN)：数据节点

数据存储节点，保存和检索Block

一个集群可以有多个数据节点

Secondary NameNode (SNN)：从元数据节点

合并NameNode的edit logs到fsimage文件中

辅助NN将内存中元数据信息持久化

HDFS架构

元数据

元数据（Metadata）是描述数据的数据，提供关于数据的组织、数据域及其关系的信息。

元数据包括数据是如何创建的、创建时间、目的、作者、位置、大小等详细信息，但并不提供数据的内容本身。

元数据的作用包括帮助用户识别、描述和定位网络化的电子资源，提供数据内容的背景信息，便于数据的管理、维护和有效利用

NameNode (名称节点)工作机制

NameNode (名称节点)启动时，将FsImage加载到内存，并执行Editlog中的操作，确保内存中元数据最新，最后将生成的FsImage保存到磁盘，并生成一个空的Editlog。

NN正常运行后，HDFS的更新操作将会写入新生成的Editlog，而不是写入FsImage。

NN定期将新生成的Editlog与内存中的FsImage合并保存到磁盘中。

HDFS架构的优劣性

HDFS具有下列优点

1. 高容错性：数据自动保存多个副本，副本丢失后，可以自动恢复

2. 适合大量数据的批量处理：Hadoop架构以数据为中心，在进行计算时并不移动数据，而是将计算分配给数据，适合GB级、TB级甚至PB级的数据量，数据文件的数量可以达到百万级别，系统中节点数可以达到上万的规模。

3. 简单的数据模型：HDFS采用“一次写入，多次读取”的简单文件模型，文件一旦完成写入，关闭后就无法再次写入，只能被读取。

4. 构建成本低、安全可靠：HDFS采用成千上万的廉价服务器存储数据，极大降低了Hadoop集群的架构成本。

HDFS具有下列缺点

1. 不适合低延迟数据访问：由于HDFS面向大规模数据的批量处理，采用流式数据读取，具有很高的数据吞吐率，但也导致较高的延迟性。

2. 不适合大量小文件存储：HDFS使用名称节点管理文件系统的元数据，这些元数据被保存到内存中，过多的小文件占用大量的内存空间，将导致元数据检索效率降低。此外，在多个节点中读取小文件，磁盘寻道时间超过读取时间，严重影响系统性能。

3. 不支持多用户并发写入及任意修改文件：HDFS只允许一个文件能有一个写入者，不允许多个用户同时对一个文件执行写入操作。而且只允许对文件执行追加操作，不能执行随机写操作。

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

seeseaXi CSDN认证博客专家 CSDN认证企业博客

码龄2年

6: 原创

153万+: 周排名

16万+: 总排名

8906: 访问

: 等级

177: 积分

76: 粉丝

108: 获赞

8: 评论

93: 收藏

私信

关注

热门文章

最新评论

RuntimeError: Failed to process string with tex because latex could not be found
aminuo: 赞，找了一圈，终于成功了
分布式文件系统HDFS（3）
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
分布式文件系统HDFS（2）
CSDN-Ada助手: 恭喜作者发布了第四篇博客《分布式文件系统HDFS（2）》，内容继续深入探讨HDFS，让读者更加全面地了解这一主题。建议作者在下一篇博客中可以结合实际案例或者对比分析，进一步加深读者对HDFS的理解。期待您的更多高质量创作，加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
分布式文件系统HDFS（3）
CSDN-Ada助手: 恭喜用户继续分享关于分布式文件系统HDFS的知识，每一篇博客都让读者受益匪浅。希望在下一篇博客中，可以更深入地探讨HDFS的应用场景和实践经验，这将为读者提供更多有价值的信息。期待您的下一篇精彩文章！
Python cvxpy 安装报错问题
建模学习指南: 很好的解决方案还有问一下为什么我"cplex'求解器就报错了,没有安装

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。