Hive的分区表更改表结构后需要注意的是旧分区的结构(包括序列化参数)都是不会更改的,如果往旧分区里重新insert或者load数据覆盖掉原来的数据,hive去旧分区select出来的新字段仍是NULL,所以需要手动去数据库里修改hive的元数据。(基于hive-0.10,序列化参数应该是都不会变,但是在0.8.1里旧分区的结构好像也会随着表结构更改。)
修改分区表结构
hive元数据中表结构存放在COLUMNS_V2表里,这个表的主键是CD_ID和COLUMN_NAME,CD_ID和TBL_ID是一一对应的,因此只需要把每个分区对应的CD_ID替换成表的CD_ID即可,shell脚本如下:
table=$1
CD_ID=`echo "select CD_ID from SDS where SD_ID=(select SD_ID from TBLS where TBL_NAME='$table')" | mysql |grep -v 'CD_ID'`
echo $CD_ID
echo "update SDS set CD_ID=$CD_ID where SD_ID in (select SD_ID from PARTITIONS where TBL_ID=(select TBL_ID from TBLS where TBL_NAME='$table'))"|mysql