spark sql重分区

hua_ed

已于 2022-11-08 19:27:35 修改

阅读量1.4k

点赞数

分类专栏： bigdata 文章标签： spark 大数据分布式

于 2022-11-08 16:05:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hua_ed/article/details/127752556

版权

在Spark SQL中，对于插入动态分区的操作可能导致大量小文件问题，从而对HDFS NameNode造成压力。通过在SQL中加入`/*+ COALESCE(10) */`，可以对查询结果进行窄依赖重分区，将结果合并为10个分区，有效优化这个问题。此外，还可以使用`DISTRIBUTE BY`语句结合`rand()`函数控制每个分区的文件数量，以达到限制文件数目的目标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

spark 3才支持

见 Hints - Spark 3.2.0 Documentation

使用场景：

在类似如下sql在insert时做动态分区，由于a360,b360已经有大量分区，可能会出现大量小文件的情况，会对hdfs namenode产生压力。

with a360{},b360{},c360{} insert overwrite table xxx partition(dayno) select a360 join b360 join c360

优化：
with a360{},b360{},c360{} insert overwrite table xxx partition(dayno) select /*+ COALESCE(10) */ a360 join b360

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。