上一篇文章补充：已经存在的小文件合并

最新推荐文章于 2024-07-12 15:01:40 发布

{BOOLEAN}

最新推荐文章于 2024-07-12 15:01:40 发布

阅读量569

点赞数 10

文章标签： spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_70131998/article/details/136280306

版权

对于HDFS上已经存在的大量小文件问题，有多种策略可以进行处理和优化：

1. **合并小文件**：
- **使用Spark作业合并**：通过编写Spark程序读取小文件并调用`repartition()`或`coalesce()`函数重新分区数据，然后将合并后的数据写入到更少的大文件中。
- **使用MapReduce作业**：编写一个MapReduce作业来读取所有的小文件，然后在reduce阶段合并输出。

2. **创建Hive表并指定表参数**：
- 如果小文件是作为Hive表的一部分，可以通过创建新的表，并在创建时指定`ROW FORMAT DELIMITED`、`STORED AS TEXTFILE`（或者列式存储格式如Parquet、ORC等），同时使用`CLUSTERED BY`子句结合`SORT BY`或`DISTRIBUTE BY`对数据进行预聚合和排序，这样可以在加载数据时自动减少文件数量。

3. **使用Hadoop Archive (HAR)**：
- HAR工具可以把多个小文件归档成一个逻辑上的大文件，但实际物理上是存放在HDFS的archive文件中，从而减少NameNode上的元数据负担。

4. **启用压缩**：
- 将多个小文件压缩成一个大的压缩文件。这不仅减少了文件数量，还节省了存储空间。不过，需要权衡查询性能和存储效率。

5. **调整应用层逻辑**：
- 从源头上避免生成过多小文件，比如在ETL过程中控制输出文件大小，或者在Hive SQL中优化查询语句，减少动态分区产生的小文件数量。

6. **采用外部解决方案**：
- 使用专门针对小文件问题设计的第三方工具或服务，例如Apache Hudi、Iceberg等现代数据湖存储格式，它们提供了更好的小文件管理和合并功能。

关注

10
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
上一篇文章补充：已经存在的小文件合并

如果小文件是作为Hive表的一部分，可以通过创建新的表，并在创建时指定`ROW FORMAT DELIMITED`、`STORED AS TEXTFILE`（或者列式存储格式如Parquet、ORC等），同时使用`CLUSTERED BY`子句结合`SORT BY`或`DISTRIBUTE BY`对数据进行预聚合和排序，这样可以在加载数据时自动减少文件数量。- **使用MapReduce作业**：编写一个MapReduce作业来读取所有的小文件，然后在reduce阶段合并输出。
复制链接

扫一扫

{BOOLEAN} CSDN认证博客专家 CSDN认证企业博客

码龄2年

35: 原创

46万+: 周排名

10万+: 总排名

1万+: 访问

: 等级

521: 积分

118: 粉丝

158: 获赞

10: 评论

140: 收藏

私信

关注

热门文章

分类专栏

Spark 1篇

最新评论

使用Python元组的小技巧
CSDN-Ada助手: 恭喜您写了第5篇博客，标题为“使用Python元组的小技巧”！您的文章内容深入浅出，让人受益匪浅。希望您能继续分享更多关于Python编程的技巧与经验，或许可以考虑写一些实用的代码案例，让读者能更直观地理解和应用。期待您的下一篇作品！
spark-flink设计思想之吸星大法-1
JJJ69: 写得不错，对我有帮助
使用array_intersect在Spark中处理数组数据
CSDN-Ada助手: 恭喜您写了这篇关于在Spark中处理数组数据的博客！您对于使用array_intersect的介绍很详细，让我受益良多。希望您能继续分享关于Spark的知识，也希望能看到您对于其他数组操作的介绍，比如array_union或者array_contains等等。期待您更多的创作！
二叉树在机器学习中的应用
CSDN-Ada助手: 恭喜您写了第15篇博客！标题“二叉树在机器学习中的应用”非常吸引人。您在这篇博客中准确地指出了二叉树在机器学习中的应用，这对我们学习机器学习的人来说会有很大的帮助。下一步，我建议您可以进一步探索不同类型的树结构在机器学习中的应用，比如决策树、随机森林等等。非常期待您在后续的创作中分享更多有关树结构在机器学习方面的应用案例和技巧。再次恭喜您，期待您的下一篇博客！
spark生产问题之一：执行作业报错 “org.apache.spark.sql.AnalysisException: undefined function: ‘your_function‘ is~~
CSDN-Ada助手: 恭喜作者第14篇博客的发布！看到你对spark生产问题的深入探讨，让我受益匪浅。关于这个报错问题，我想提醒一下，可能是由于函数名称拼写错误或者函数未注册导致的。希望你在下一篇博客中可以分享一些解决这类问题的实用技巧，期待你的下一篇作品！加油！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

{BOOLEAN} 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。