spark-sql多级分区 小文件合并

spark-sql表运行缓慢,查看后发现上游数据小文件数多,

单个文件6.8M或15M,均在20M以内,每个分区小文件个数达几千个,运行起来非常缓慢;

网上很多hive sql的优化,

常见hive sql优化合并小文件(spark-sql客户端也可以):

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set mapreduce.input.fileinputformat.split.maxsize=2073741824;
set mapreduce.input.fileinputformat.split.minsize=524288;
set mapreduce.input.fileinputformat.split.minsize.per.node=536870912;
set mapreduce.input.fileinputformat.split.minsize.per.rack=536870912;

insert overwrite table a

select * from b;

但在python脚本中spark-sql 多级分区中并不生效(在客户端可以),找了些文档,运行后repartition了,如下:

insert overwrite table credit_data.real_time_event_update_to_redis2 
select  /*+ REPARTITION(40) */

*

from a

union all

select /*+ REPARTITION(40) */

*

from b

参考文档:

​​​​​​​在 Spark SQL 使用 REPARTITION Hint 来减少小文件输出 — utf7

​​​​​​​Hints - Spark 3.0.1 Documentation

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值