spark-sql表运行缓慢,查看后发现上游数据小文件数多,
单个文件6.8M或15M,均在20M以内,每个分区小文件个数达几千个,运行起来非常缓慢;
网上很多hive sql的优化,
常见hive sql优化合并小文件(spark-sql客户端也可以):
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set mapreduce.input.fileinputformat.split.maxsize=2073741824;
set mapreduce.input.fileinputformat.split.minsize=524288;
set mapreduce.input.fileinputformat.split.minsize.per.node=536870912;
set mapreduce.input.fileinputformat.split.minsize.per.rack=536870912;
insert overwrite table a
select * from b;
但在python脚本中spark-sql 多级分区中并不生效(在客户端可以),找了些文档,运行后repartition了,如下:
insert overwrite table credit_data.real_time_event_update_to_redis2
select /*+ REPARTITION(40) */
*
from a
union all
select /*+ REPARTITION(40) */
*
from b
参考文档: