【大数据之Hadoop】三、HDFS概述及组成框架

最新推荐文章于 2024-06-01 14:15:42 发布

阿宁呀

最新推荐文章于 2024-06-01 14:15:42 发布

阅读量167

点赞数

分类专栏： hadoop 文章标签： hadoop hdfs 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_18625571/article/details/129729864

版权

hadoop 专栏收录该内容

37 篇文章 7 订阅

订阅专栏

解决海量数据的存储问题，是分布式的文件存储系统，通过目录树来定位文件，适合一次写入多次读出的场景。

优点：
（1）高容错性：数据自动保存多个副本，，某副本丢失后可以自动恢复。
（2）适合处理大数据，包括数据规模和文件数量。

缺点：
（1）不适合低延时的数据访问。
（2）无法高效对大量小文件进行存储：因为存储大量小文件时，会消耗很多存储空间用于NameNode节点来存储文件目录和文件块信息；并且小文件的寻址时间会超过读取时间。
（3）不支持并发写入、文件随机修改：一个文件只能有一个写，不允许多个线程同时写；只支持数据追加，不支持修改。

组成架构

在这里插入图片描述
（1）NameNode(nn)：相当于主管，下达命令。
管理HDFS的名称空间，即所有文件的元数据；
设置副本的策略；管理数据块的映射信息；
处理客户端的读写请求。

（2）DataNode：执行实际操作。
存储实际的数据，执行数据块的读写操作。

（3）Secondary NameNode(2nn)：非NameNode的热设备，当NameNode挂掉是不能马上替换NameNode并提供服务。
辅助NameNode工作，定期合并镜像文件和工作日志并发送给NameNode；
可以恢复一部分NameNode。

（4）Client：负责文件切分，然后上传；
与NameNode交互，获取文件的位置；
与DataNode交互，读写数据；
提供命令管理HDFS（NameNode的格式化），和访问HDFS（对HDFS进行增删改查操作）。

文件块大小问题（重点）

HDFS中的文件在物理上是分块存储（Block），块的大小有配置参数规定，默认128M。
若传输时间为10ms则找到目标块的时间为10ms，最佳状态下：寻址时间=传输时间x1%。

文件块不能设置太大也不能设置太小：
若HDFS的块设置太小，则会增加寻址时间；若HDFS的块设置太大，则磁盘传输数据的时间会明显大于定位块开始的位置所需要的时间，不利于并发运算。

文件块大小与硬盘从读写速度有关，一般默认128M或256M

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【大数据之Hadoop】三、HDFS概述及组成框架

解决海量数据的存储问题，是分布式的文件存储系统，通过目录树来定位文件，适合一次写入多次读出的场景。（1）高容错性：数据自动保存多个副本，，某副本丢失后可以自动恢复。（2）适合处理大数据，包括数据规模和文件数量。（1）不适合低延时的数据访问。（2）无法高效对大量小文件进行存储：因为存储大量小文件时，会消耗很多存储空间用于NameNode节点来存储文件目录和文件块信息；并且小文件的寻址时间会超过读取时间。（3）不支持并发写入、文件随机修改：一个文件只能有一个写，不允许多个线程同时写；
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。