Hive分区表修改表结构的问题

最新推荐文章于 2024-11-12 20:39:25 发布

hanhaixingchen

最新推荐文章于 2024-11-12 20:39:25 发布

阅读量8.8k

点赞数 1

分类专栏： Hive 文章标签： hive

本文链接：https://blog.csdn.net/hanhaixingchen/article/details/53744132

版权

Hive分区表在使用Alter语句修改结构时，仅对新分区生效。要影响所有分区，需使用cascade参数，但大量分区可能导致超时。为解决此问题，可以手动更新Hive元数据库中的表结构信息，具体涉及DBS, TBLS, SDS, COLUMNS_V2, PARTITIONS等表，并通过SQL更新SDS中CD_ID来同步分区结构。" 87921085,8177211,VMware虚拟机安装SLES11 Linux字符界面详细教程,"['虚拟机', 'Linux操作系统', 'SLES11', 'VMware安装', '字符界面']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在使用 Alter语句修改 Hive 分区表结构的时候，会出现已存在的分区结构没有被修改的情况。比如说，新增了一个字段，但是向原有分区插入新增字段数据之后，查询却发现数据为 NULL，或者修改了一个字段类型，查询原有分区的时候发现数据没有被正确识别。

之所以会出现这种情况，是因为 Hive对应分区表表结构的修改，默认采用了限制模式。限制模式下，修改分区表结构的时候，只会对修改后新增的分区有效，修改表结构前已存在的分区不受影响。对应的，Hive也提供了级联修改的命令，在Alter 语句后添加 cascade参数，就可以连同过去存在的分区一起修改表结构（注意：Hive在0.15 版本之后才提供此参数）。

不过，在实际使用过程中，当历史分区数据过多的时候（比如千个以上），使用 cascade参数修改表结构，会出现操作超时的情况；或者是忘记使用 cascade参数的情况。这些情况下，我们就需要通过直接修改 Hive 元数据的方式来修改 Hive表结构。

使用修改元数据的方式修改分区表结构分两步。首先是使用 Alter语句修改表结构。然后登陆到Hive 的元数据库，执行 SQL语句修改已存在分区对应的表结构信息。以 MySQL 元数据库为例，需要执行以下语句（将表名、库名替换成需要修改的表的库名和表名）：

UPDATE TBLS T1,DBST2,SDS T3,PARTITIONS T4,SDS T5

SET T5.CD_ID = T3.CD_ID

WHERE T2.NAME = '库名'

AND T1.TBL_NAME = '表名'

AND T1.DB_ID = T2.DB_ID

AND T1.SD_ID = T3.SD_ID

AND T1.TBL_ID =T4.TBL_ID

ANDT4.SD_ID = T5.SD_ID

;

执行上面语句以后，就会将原有分区的表结构信息同步成最新的表结构。