关注公众号:大数据技术派,回复
资料
,领取1024G
资料。
最近发现离线任务对一个增量Hive
表的查询越来越慢,这引起了我的注意,我在cmd
窗口手动执行count
操作查询发现,速度确实很慢,才不到五千万的数据,居然需要300s
,这显然是有问题的,我推测可能是有小文件。
我去hdfs
目录查看了一下该目录:
发现确实有很多小文件,有480个小文件,我觉得我找到了问题所在,那么合并一下小文件吧:
insert into test select * from table distribute by floor (rand(