关于处理小文件数过多影响sql效率的调优问题

加州小清新学长

于 2021-08-05 13:51:35 发布

阅读量209

点赞数

文章标签： sql hive spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aline12/article/details/119414106

版权

背景：sparksql执行过程中，发现task数目特别多，大大降低了执行的效率，经排查后发现是某张表的底层文件数过多，且每个文件大小都很小，也就是出现了小文件过多的情况

原理：

此处要区分spark任务和hive任务在落盘时候是不同的

spark任务可以直接通过设定repartition(N)的命令来设置每个分区下的文件数目，

同时在sql查询末加上distribute by rand()来设置生成N个小文件同时避免文件大小不均以及数据倾斜的问题，

这里不多描述

hive任务略有不同

首先reducer数目直接影响到的就是生成文件的数目

设置reducer数目可以通过set mapred.reduce.tasks=N来设置

这里要解释下distribute by rand() 和 distribute by XXX（通常是分区字段）的区别（区别在reducer=1时体现不出）

前者是根据rand生成的随机数和reducer取模后分配到对应的reducer进行计算，因此数量上比较平均，且每个分区生成N个大小差不多的文件

后者是根据XX字段相同的记录分配到同一个reducer进行计算，因此每个分区生成1个文件，因为同个分区都只有一个reducer，但可能导致数据倾斜

解决办法：

写python脚本，自己读取自己的数据，然后insert overwrite本身设置reducer数目为1且distribute by分区

加州小清新学长

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于处理小文件数过多影响sql效率的调优问题

背景：sparksql执行过程中，发现task数目特别多，大大降低了执行的效率，经排查后发现是某张表的底层文件数过多，且每个文件大小都很小，也就是出现了小文件过多的情况原理：此处要区分spark任务和hive任务在落盘时候是不同的spark任务可以直接通过设定repartition(N)的命令来设置每个分区下的文件数目，同时在sql查询末加上distribute by rand()来避免文件大小不均以及数据倾斜的问题，这里不多描述hive任务略有不同首先reducer数目直接影响到的
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。