小文件带来的问题及解决方案

小文件在大数据集群中引发NameNode元数据管理压力、DataNode存储效率下降和计算性能降低等问题。关键指标IOPS和数据吞吐量受影响。解决方案包括源头避免、存储层后处理(如archive和Sequence File)以及计算层的小文件合并策略。然而,各种解决方案如archive也存在一定的限制。
摘要由CSDN通过智能技术生成

小文件带来的问题:

为啥集群小文件治理那么重要,你真的懂吗?_涤生大数据的博客-CSDN博客

1:对 NameNode 的影响 -> 元数据管理

2:对 DataNode 的影响 -> 存储效率、访问性能

3:对计算的影响 -> 计算性能

存储系统衡量指标:

1:IOPS (Input/Output Per Second) 单位时间内系统能处理的I/O请求数量

2:数据吞吐量

解决方案:

1:从源头避免小文件问题 

repartition/coalesce  和 adaptive shuffle 当 shuffle 数据量过小对 partition 进行合并。

2:在存储层对小文件进行后处理

archieve命令 + Sequence File

3:在计算层对小文件合并

blocksize  + minSize + maxSize

最全的一篇文章:

海量小文件问题综述和解决攻略 - 云+社区 - 腾讯云

几种解决方案的 (archieve) 限制:

hdfs小文件治理方案 - 知乎

Hadoop 大量小文件问题及解决方案_常生果的博客-CSDN博客_大量小文件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MISAYAONE

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值