问题描述:hive表查hdfs目录文件有数据,但在hive命令行查分区表查不到数据
向hive表对应hdfs中新建目录,put数据后,在hive命令行查询,查不到put进分区的数据,下面记录处理方法:
分区既然是HDFS目录,那就可以通过hdfs put命令直接向HDFS添加分区。然而,元存储拥有所有表的元数据,它不会自动识别这些直接被添加到HDFS的分区。Hive提供了命令MSCK REPAIR TABLE tableName;,可以自动地更新元存储来恢复分区。如果基于亚马逊EMR,这个命令是ALTER TABLE tableName RECOVER PARTITIONS;。
测试如下:
hadoop fs -mkdir hdfs://yhd-jqhadoop2.int.yihaodian.com:8020/user/hive/warehouse/testtmp.db/denglg/step=4
hive> select * from denglg where step='4';
OK
Time taken: 0.067 seconds
hadoop fs -cp hdfs://yhd-jqhadoop2.int.yihaodian.com:8020/user/hive/warehouse/testtmp.db/denglg/step=3/000000_0 hdfs://yhd- jqhadoop2.int.yihaodian.com:8020/user/hive/warehouse/testtmp.db/denglg/step=4/000000_0
hive> select * from denglg where step='4';
OK
Time taken: 0.066 seconds
hive> MSCK REPAIR TABLE denglg;
OK
Partitions not in metastore: denglg:step=4
Repair: Added partition to metastore denglg:step=4
Time taken: 0.156 seconds, Fetched: 2 row(s)
hive> select * from denglg where step='4';
OK
111 222 333 4
Time taken: 0.068 seconds, Fetched: 1 row(s)