之前跑etl任务,由于产生了大量的小文件,就使用了archive partition,来减少小文件的数量;之后误删了hdfs上的data.har文件,导致删除对应hive表的partition或直接删除对应hive表的时候报如下错误:
java.io.IOException: Invalid path for the Har FileSystem. No index file in har://hdfs-nameservice1/user/hive/warehouse/test.db/hive_archive_partition_test/timestamp=152034932465/data.har
解决方案如下:
1、创建一个空的data.har文件,并上传到对应的分区目录,然后再删除分区:
## 1) 创建空文件data.har
touch data.har
## 2) 上传到对应的hdfs目录
hdfs dfs -put data.har /user/hive/warehouse/test.db/hive_archive_partition_test/timestamp=152034932465/
## 3) 删除对应分区
alter table test.hive_archive_partition_test drop partition(timestamp=152034932465)
这种方式,只适合个别分区出现“删除归档分区”报错的问题,当我们要删除表,并且表中出现以上情况的分区较多时,再用这种方式就显得比较麻烦了,下面看第二种方式,直接删除整张表:
2、先把目标表修改为外部表,之后删除表,然后再删除hdfs对应的表目录
## 1) 把要删除的表修改为外部表
ALTER TABLE test.hive_archive_partition_test SET TBLPROPERTIES ('EXTERNAL'='TRUE')
## 2) 删除表(修改为外部表后删除表不再报错)
DROP TABLE test.hive_archive_partition_test
## 3) 删除hdfs上对应的表目录
hdfs dfs -rm -r -f /user/hive/warehouse/test.db/hive_archive_partition_test/
由于没在网上找到对应的解决方案,以上两种方式都是自己试的,不知道这样删除的方式对hive后续的使用会不会有什么影响,之后在使用中如果发现有坑的话,会及时更新。