HDFS为什么不适合存储小文件？

最新推荐文章于 2024-07-19 10:49:07 发布

我係外星人

最新推荐文章于 2024-07-19 10:49:07 发布

阅读量6.3k

点赞数 3

分类专栏： Hadoop HDFS HDFS缺点文章标签： HDFS 小文件存储

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Wx_wxr/article/details/88830203

版权

Hadoop 同时被 3 个专栏收录

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

不能高效的对大量的小数据进行存储（大量的小文件会很快沾满nameNode的内存空间）大量的小文件，也会影响NameNode的寻址时间

1、小文件过多，会过多占用namenode的内存，并浪费block。
- 文件的元数据（包括文件被分成了哪些blocks，每个block存储在哪些服务器的哪个block块上），都是存储在namenode上的。
HDFS的每个文件、目录、数据块占用150B，因此300M内存情况下，只能存储不超过300M/150=2M个文件/目录/数据块的元数据

dataNode会向NameNode发送两种类型的报告：增量报告和全量报告。
增量报告是当dataNode接收到block或者删除block时，会向nameNode报告。
全量报告是周期性的，NN处理100万的block报告需要1s左右，这1s左右NN会被锁住，其它的请求会被阻塞

2、文件过小，寻道时间大于数据读写时间，这不符合HDFS的设计:
-HDFS为了使数据的传输速度和硬盘的传输速度接近，则设计将寻道时间（Seek）相对最小化，将block的大小设置的比较大，这样读写数据块的时间将远大于寻道时间，接近于硬盘的传输速度。hdfs的写流程

HDFS不适合存储小文件，如果生成场景中还必须将这些小文件进行存储（比如，每天产生的日志，数据量很小，但是必须存储）

HDFS天生就是为存储大文件而生的，一个块的元数据大小大概在150byte左右，存储一个小文件就要占用150byte的内存，如果存储大量的小文件
很快就将内存耗尽，而整个集群存储的数据量很小，失去了HDFS的意义
可以将数据合并上传，或者将文件append形式追加在HDFS文件末尾。

我係外星人

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。