HIVE 分区表添加字段后的奇怪现象

最新推荐文章于 2024-04-23 07:00:00 发布

oO寒枫Oo

最新推荐文章于 2024-04-23 07:00:00 发布

阅读量1.7w

点赞数 5

分类专栏： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lxpbs8851/article/details/17118841

版权

hive 专栏收录该内容

31 篇文章 1 订阅

订阅专栏

情况：

表: test_table

已有字段 (a,b,c)

已有分区:

day_key=20131201

day_key=20131202

day_key=20131203

需求是需要添加一个字段d

并且重新生成所有分区的数据

步骤

1.添加字段：

alter table test_table add columns (d string);

2.执行语句

insert overwrite table test_table

select ....

此时问题产生了：

发现新加的字段d 列生成出来的数据

在已有的分区中

全是NULL

解决办法3个：

A1.新版本解决办法:

修改分区表修改语句在最后加上关键字 cascade 即可。

alter table test_table changge ..... cascade;

A.直接在hive里面解决

删除对应的分区 day_key=20131201

alter table test_table drop partition (day_key='20131201');

然后再次生成数据发现d列的数据产生了。

B.修改元数据库

修改SDS表老分区对应的 CD_ID

与表的 CD_ID 保持一致。

在元数据库查询：

select * from SDS where LOCATION like '%tb_name%'\G

我们可以看到所有分区以及表对应的CD_ID

如果我们对字段进行了修改

新生成分区的 CD_ID 的最新的 (与COLUMS表的一致)

而老分区 (不管你重新插入数据多少次) 都是与表(TBLS)的TBL_ID保持一致的！！

当我们重新计算数据之后又不想重建分区

只需 :

update SDS set CD_ID=119 where SD_ID=116;

其中 119为其它新分区的 CD_ID 116 为表的TBL_ID

当然后面如果再次 add columns

也可以用同样的办法

update SDS set CD_ID=120 where SD_ID=119;

其中 120 为其它新分区的 CD_ID 119 为表之前过期的CD_ID

希望能帮助有同样问题的人。

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。