Insert Overwrite 进行hive或impala小文件合并后 文件数量不是1
HDFS的表里面,按天分区,每个分区都有很多的小文件,长此以往必然会导致性能的下降。所以我们在保持原来的业务逻辑不变,增加每日跑批 来合并分区内的小文件。刚开始我是直接Impala执行Insert overwrite ,想合并某一天分区内的4份文件, 发现分区内部的文件数还是4个,我就纳闷,以为我记错了 overwrite 的执行原理,然后使用Hive 进行 insert overwrite,结...
原创
2020-04-11 11:11:26 ·
3120 阅读 ·
0 评论