Hadoop2.x:HDFS存储小文件问题及其解决方法

最新推荐文章于 2022-08-15 01:42:35 发布

置顶

liuhong1123

最新推荐文章于 2022-08-15 01:42:35 发布

阅读量4.9k

点赞数

分类专栏： HDFS 文章标签： HDFS hadoop2.x

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuhong1123/article/details/16117211

版权

HDFS设计适合存储大文件，但处理小文件时会出现性能问题，如心跳报告阻塞、磁盘IO增加、元数据压力等。解决方案包括增大NM内存、启动多DN、分批报告块、使用Federation和优化锁机制。通过这些方法，可以有效缓解HDFS存储小文件时遇到的挑战。

摘要由CSDN通过智能技术生成

HDFS设计的初衷是存储大文件,如果单个DataNode有12块2T的硬盘,则可使用存储空间24T,如果每个块100M,则可存储251658,如果每个块50M,则可存储503316.

DataNode会向NameNode进行两种类型的块报告:增量报告与全量报告,DataNode接收到块,或者删除块会立即向NM报告,这属于增量报告;全量报告周期性发生,定时将当前DN上所有数据块信息报告给NM.NM处理一百万的块报告需要1s左右,这1s左右NM会被锁住,其他的请求会被阻塞.因此单节点存储50万左右对NM影响不会太多，而且hadoop本身是做离线处理，主要在规定时间范围内把任务做完就OK，不关心每次请求的响应时间。

DataNode同时也会周期性扫描本地磁盘的目录,验证内存中记录的块信息与磁盘上存储的块元数据是否一致.

如果存储大文件,该设计方式不会有什么问题,如果存储大量小文件，就会暴露出一些问题。

小文件可能很小，比如文件平均大小为1M，单DN12块盘工24TB空间，则可存储数据块25165824即2000多万个块。如文件更小，单DN能够存储的数据块更多。这样会引起几个问题：

1、因为DN扫描本地磁盘文件目录时候，会涉及到比对内存记录的文件长度与磁盘上文件长度，整个过程DN会锁住，DN不能进行读写操作，磁盘操作速度本身就是毫秒级ÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。