小文件带来的问题:
为啥集群小文件治理那么重要,你真的懂吗?_涤生大数据的博客-CSDN博客
1:对 NameNode 的影响 -> 元数据管理
2:对 DataNode 的影响 -> 存储效率、访问性能
3:对计算的影响 -> 计算性能
存储系统衡量指标:
1:IOPS (Input/Output Per Second) 单位时间内系统能处理的I/O请求数量
2:数据吞吐量
解决方案:
1:从源头避免小文件问题
repartition/coalesce 和 adaptive shuffle 当 shuffle 数据量过小对 partition 进行合并。
2:在存储层对小文件进行后处理
archieve命令 + Sequence File
3:在计算层对小文件合并
blocksize + minSize + maxSize
最全的一篇文章:
几种解决方案的 (archieve) 限制: