HDFS小文件处理解决方案

最新推荐文章于 2024-05-03 22:20:35 发布

mischen520

最新推荐文章于 2024-05-03 22:20:35 发布

阅读量275

点赞数

分类专栏：大数据 Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/miachen520/article/details/118005159

版权

大数据同时被 2 个专栏收录

146 篇文章 5 订阅

订阅专栏

56 篇文章 0 订阅

订阅专栏

1）会有什么影响

（1）存储层面：

1个文件块，占用namenode多大内存150字节

1亿个小文件*150字节

1个文件块 * 150字节

128G能存储多少文件块？ 128 * 1024*1024*1024byte/150字节 = 9亿文件块

（2）计算层面：

每个小文件都会起到一个MapTask，占用了大量计算资源

2）怎么解决

（1）采用har归档方式，将小文件归档

（2）采用CombineTextInputFormat

（3）有小文件场景开启JVM重用；如果没有小文件，不要开启JVM重用，因为会一直占用使用到的task卡槽，直到任务完成才释放。

JVM重用可以使得JVM实例在同一个job中重新使用N次，N的值可以在Hadoop的mapred-site.xml文件中进行配置。通常在10-20之间

<property>

<name>mapreduce.job.jvm.numtasks</name>

<value>10</value>

<description>How many tasks to run per jvm,if set to -1 ,there is no limit</description>

</property>

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS小文件处理解决方案

1）会有什么影响（1）存储层面：1个文件块，占用namenode多大内存150字节1亿个小文件*150字节1个文件块 * 150字节128G能存储多少文件块？ 128 * 1024*1024*1024byte/150字节 = 9亿文件块（2）计算层面：每个小文件都会起到一个MapTask，占用了大量计算资源2）怎么解决（1）采用har归档方式，将小文件归档（2）采用CombineTextInputFormat（3）有小文件场景开启JVM重用；如果没有小文件，不..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。