hive on spark 解决分区表目录下多个空文件

cclovezbf

已于 2022-10-13 11:52:36 修改

阅读量919

点赞数

分类专栏： hive 文章标签： hive spark 空文件 merge

于 2022-10-13 11:52:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cclovezbf/article/details/127298341

版权

hive 专栏收录该内容

49 篇文章 10 订阅

订阅专栏

现象 datax执行hdfsreader->mysqlwriter的时候发现

2w+task 然后oom。

首先思考下为啥又2w+task，说明有2w+文件，未免也太多了

检查hdfs目录

分区/子分区/1000个文件

为什么会有这么多分区呢？

按道理spark 会自动merge小文件的，为啥没有merge呢？以前我都测试是ok的呀

set hive.merge.size.per.task=268435456;
set hive.merge.sparkfiles=true;

猜测：

1.spark merge 对分区表不起作用？

2.spark merge 对空文件不起作用。

上述就是空文件，暂时不测试了。有时间的时候更新下。本来想着下次更新，但是想了下，问题也不复杂，继续研究下。

我发现其余分区的数据

查看他们的目录都很正常。

但是那些分区数据为空的就不正常了

说明了啥，spark.merge 是针对非空文件去merge的或者说这个参数起效，一个目录下必须有一个非空文件，我这几个目录都是1000个空文件，所以根本不merge。

主要来说明怎么解决空文件过多的问题

也很简单，我们知道生成文件的个数=task的数量

直接set mapreduce.job.reduces=10

最后结果也ok 10个空文件比1000个能够接收。

但是这样也会有一定的问题，reduce只有10个速度效率会有所下降

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hive on spark 解决分区表目录下多个空文件

说明了啥，spark.merge 是针对非空文件去merge的或者说这个参数起效，一个目录下必须有一个非空文件，我这几个目录都是1000个空文件，所以根本不merge。上述就是空文件，暂时不测试了。本来想着下次更新，但是想了下，问题也不复杂，继续研究下。按道理spark 会自动merge小文件的，为啥没有merge呢？但是这样也会有一定的问题，reduce只有10个速度效率会有所下降。首先思考下为啥又2w+task，说明有2w+文件，未免也太多了。也很简单，我们知道生成文件的个数=task的数量。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。