Hadoop中hdfs小文件处理

最新推荐文章于 2024-07-19 10:49:07 发布

x我有辣条跟我走。

最新推荐文章于 2024-07-19 10:49:07 发布

阅读量768

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/XIAOMO__/article/details/109185479

版权

本文探讨了Hadoop中处理大量小文件的问题，包括小文件对NameNode内存的影响以及解决方案。建议采用Har归档和CombineTextInputFormat来优化，同时提到了JVM重用在有小文件场景下的应用。

摘要由CSDN通过智能技术生成

假如有128G的小文件，那么它会有多少字节那？

一个小文件：占用namenode多大内存150字节；

128 * 1024*1024*1024byte/150字节 = 9亿文件块

（1KB（Kilobyte，千字节）=1024B= 2^10 B；1MB（Megabyte，兆字节，百万字节，简称“兆”）=1024KB= 2^20 B；1GB（Gigabyte，吉字节，十亿字2113节，又称“千兆”）=1024MB= 2^30 B。）

怎么解决呢？

（1）采用har归档方式，将小文件归档

我们的hdfs中保存大量小文件（当然不产生小文件是最佳实践），这样会把namenode的namespace搞的很大。namespace保存着hdfs文件的inode信息，文件越多需要的namenode内存越大，但内存毕竟是有限的（这个是目前hadoop的硬伤）。

下面图片展示了，har文档的结构。har文件是通过mapreduce生成

最低0.47元/天解锁文章

x我有辣条跟我走。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。