集群小文件太多问题（spark-sql优化）

最新推荐文章于 2024-07-12 17:49:54 发布

lhxsir

最新推荐文章于 2024-07-12 17:49:54 发布

阅读量7.2k

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/lhxsir/article/details/87882128

版权

spark 专栏收录该内容

32 篇文章 1 订阅

订阅专栏

hive外部分区表，每个分区下有200个小文件
在这里插入图片描述
某张表有三个分区字段（partition_brand, partition_date, partition_rssc）
则生成小文件个数：2 * 26 * 8 * 200 = 83,200
这个表还算一般，如果按照年月日进行分区的话，小文件就太多了
先查看集群动态资源配置：

再查看执行spark程序配置资源：

--driver-memory 30g \
--executor-memory 12g \
--num-executors 12 \
--executor-cores 3 \

12executor3个core =36 cores
12executor12 + 30 =174G

然而是实际运行过程
在这里插入图片描述
看来是集群动态分配资源，然而分配资源对生成文件数并没影响。。
最终发现默认文件生成数和表文件存储的个数有关，但是上游表存储个数不是我们下游能控制的，只能自己想办法处理小文件了

方法一：新增配置信息：

--conf spark.sql.shuffle.partitions=10 \
--conf spark.default.parallelism=10 \

在这里插入图片描述
执行结果ok,但是运行时间增加了10min.

方法二：repartition函数

   //合并成一个文件
   df.repartition(10).createOrReplaceTempView("table1")
   hiveContext.sql("INSERT overwrite TABLE wd_part_test partition(partition_brand, partition_date, partition_rssc) select * from table1")

执行结果ok,同样运行时间增加了10min。

最后深入分析之后，采用distribute by方式：

INSERT overwrite TABLE asmp.wd_part_test partition(partition_brand, partition_date)
select
c.rssc_code,
c.rssc_name,
b.sst_code,
b.sst_name,
b.sst_code p1,
regexp_replace(substr(te.fkdat,1,7), '-', '') p2
from tt_part_test
distribute by p1,p2

执行结果ok,同样运行时间几乎没有增加。

注：
(1)测试采用一年的数据量大约50G（1亿条）
(2)distribute by 控制map输出结果的分发,相同字段的map输出会发到一个reduce节点去处理；sort by为每一个reducer产生一个排序文件。cluster by = distribute by + sort by，默认只能是升序。

lhxsir

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
8
评论
集群小文件太多问题（spark-sql优化）

hive外部分区表，每个分区下有200个小文件某张表有三个分区字段（partition_brand, partition_date, partition_rssc）则生成小文件个数：2 * 26 * 8 * 200 = 83,200这个表还算一般，如果按照年月日进行分区的话，小文件就太多了先查看集群动态资源配置：再查看执行spark程序配置资源：--driver-memory 30...
复制链接

扫一扫

专栏目录