今天需要手工往hive数据表里面插入一个临时表的数据。拿到表第一时间确认了两张表的结构,确认字段名都相同以后开始往hive表里面insert overwrite数据。
sql跑完以后,对数据做稽核测试发现hive结果表里面一个要求非空的字段全是空值。我开始以为是临时表里面的数据有问题,结果到临时表里面一查,人家对应字段是有数值的,而且全都非空。懵逼了一瞬间,突然想起来字段类型这个坑,赶紧重新去看了一下两张表的表结构,果不其然,发现两张表同一个字段类型存在差异。暗自庆幸一番,然后赶紧调整了表字段类型:
alter table table_name change column 字段名 字段名 要修改的字段类型;
改完之后又是一顿insert overwrite。按理来说,我字段类型改了,两张表现在字段类型都是一致的。那么我现在插入进去的数据总不该是为空了吧?
但是,这次插入sql跑完以后,结果表字段还是变成null值了?!思索了很久,感觉可能是我第一次插入数据的时候,分区里面的类型就固定了,即便我后面改了字段类型,但旧分区里面的并没有自动同步。后来把第一次建的分区删了重新建了个一样的分区,再一插数据,嘿,成功了!。
记录一下,我其实只模糊知道已经有数据的分区不会因为表字段类型的改变而改变本分区中已有字段类型,但是具体的原理(官方一点的说法)还是不知道。要是有知道的大神,还望能够指教一下,感谢感谢。