集群小文件太多问题(spark-sql优化)

hive外部分区表,每个分区下有200个小文件
在这里插入图片描述
某张表有三个分区字段(partition_brand, partition_date, partition_rssc)
则生成小文件个数:2 * 26 * 8 * 200 = 83,200
这个表还算一般,如果按照年月日进行分区的话,小文件就太多了
先查看集群动态资源配置:
在这里插入图片描述
再查看执行spark程序配置资源:

--driver-memory 30g \
--executor-memory 12g \
--num-executors 12 \
--executor-cores 3 \

12executor3个core =36 cores
12executor
12 + 30 =174G

然而是实际运行过程
在这里插入图片描述
看来是集群动态分配资源,然而分配资源对生成文件数并没影响。。
最终发现默认文件生成数和表文件存储的个数有关,但是上游表存储个数不是我们下游能控制的,只能自己想办法处理小文件了

方法一:新增配置信息:

--conf spark.sql.shuffle.partitions=10 \
--conf spark.default.parallelism=10 \

在这里插入图片描述
执行结果ok,但是运行时间增加了10min.
在这里插入图片描述
方法二:repartition函数

   //合并成一个文件
   df.repartition(10).createOrReplaceTempView("table1")
   hiveContext.sql("INSERT overwrite TABLE wd_part_test partition(partition_brand, partition_date, partition_rssc) select * from table1")

执行结果ok,同样运行时间增加了10min。

最后深入分析之后,采用distribute by方式:

INSERT overwrite TABLE asmp.wd_part_test partition(partition_brand, partition_date)
select
c.rssc_code,
c.rssc_name,
b.sst_code,
b.sst_name,
b.sst_code p1,
regexp_replace(substr(te.fkdat,1,7), '-', '') p2
from tt_part_test
distribute by p1,p2

执行结果ok,同样运行时间几乎没有增加。

注:
(1)测试采用一年的数据量大约50G(1亿条)
(2)distribute by 控制map输出结果的分发,相同字段的map输出会发到一个reduce节点去处理;sort by为每一个reducer产生一个排序文件。cluster by = distribute by + sort by,默认只能是升序。

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值