spark-sql多级分区小文件合并

花言简

已于 2022-02-18 20:41:03 修改

阅读量1.7k

点赞数

分类专栏： spark-sql 文章标签： spark sql big data

于 2022-02-18 20:40:05 首次发布

本文链接：https://blog.csdn.net/m0_38014125/article/details/123010367

版权

spark-sql 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

spark-sql表运行缓慢，查看后发现上游数据小文件数多，

单个文件6.8M或15M，均在20M以内，每个分区小文件个数达几千个，运行起来非常缓慢；

网上很多hive sql的优化，

常见hive sql优化合并小文件(spark-sql客户端也可以)：

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set mapreduce.input.fileinputformat.split.maxsize=2073741824;
set mapreduce.input.fileinputformat.split.minsize=524288;
set mapreduce.input.fileinputformat.split.minsize.per.node=536870912;
set mapreduce.input.fileinputformat.split.minsize.per.rack=536870912;

insert overwrite table a

select * from b;

但在python脚本中spark-sql 多级分区中并不生效(在客户端可以)，找了些文档，运行后repartition了，如下：

insert overwrite table credit_data.real_time_event_update_to_redis2 
select  /*+ REPARTITION(40) */

*

from a

union all

select /*+ REPARTITION(40) */

*

from b

参考文档：

在 Spark SQL 使用 REPARTITION Hint 来减少小文件输出 — utf7

Hints - Spark 3.0.1 Documentation

花言简

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
spark-sql多级分区小文件合并

spark-sql表运行缓慢，查看后发现上游数据小文件数多，单个文件6.8M或15M，均在20M以内，每个分区小文件个数达几千个，运行起来非常缓慢；网上很多hive sql的优化，常见hive sql优化合并小文件(spark-sql客户端也可以)：set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;set mapreduce.input.fileinputformat.split.ma
复制链接

扫一扫