HIVE 中的 CASCADE关键字

最新推荐文章于 2024-04-23 07:00:00 发布

沧海寄馀生

最新推荐文章于 2024-04-23 07:00:00 发布

阅读量950

点赞数 2

文章标签： hive hadoop 数据仓库大数据

本文链接：https://blog.csdn.net/sx157559322/article/details/131950817

版权

“才感春来忽而已夏🌷”

THE ROMANCE
OF SPRING

简要解释

CASCADE的中文翻译为"级联"，顾名思义就是就是与之有联系的。在针对HIVE也就是不仅变更新分区的表结构（metadata），同时也变更旧分区的表结构。

接下来我们要验证这个关键字对分区表新增字段之后有什么影响？

背景说明

在生产环境中,由于用户对HIVE知识了解不深,在针对分区表时对表新增字段,没有使用cascade关键字,那么此时对于历史分区无论是使用insert into还是insert overwrite table 插入数据新增的列显示都是null值，那么如何解决？

下面是验证步骤

新增测试表以及插入数据

#创建表,以parquet存储格式存储
create table aiops.par_c(
 id int , name string,address string,oa string,ob string
)
partitioned by (day string);
 STORED AS PARQUET;


#插入数据
insert into aiops.par_c partition(day="20230709") values (1,"tom","nanjin","0a","ob");
insert into aiops.par_c partition(day="20230709") values (2,"jack","hefei1","0a","ob");

对分区表新增字段

#新增loc字段
alter table aiops.par_c add columns (loc string);

此时对于历史分区数据loc列都是null

继续插入数据

#在新增字段之后分别向历史分区以及新分区插入数据
insert into aiops.par_c partition(day="20230709") values (2,"jack","hefei1","0a","ob","loc");


insert into aiops.par_c partition(day="20230710") values (5,"linda","hefei1","0a","ob","loc");
insert into aiops.par_c partition(day="20230710") values (6,"yyx","hefei1","0a","ob","loc");

此时针对历史分区day=20230709,新插入的数据loc列显示的是MULL,这明显就出现了问题。

如何解决NULL值问题?

使用CASCADE关键字

下面命令的意思是以级联的方式对aiops.par_c表的loc列重新命名为loc2

为了列名显示正式可以使用相同的方式再修改回去

ALTER TABLE aiops.par_c  CHANGE COLUMN loc loc2 string CASCADE;

再次查询,发现NULL变成了具体插入的值了,那么问题便解决了

总结

通过比较加与不加CASCADE关键字就知道了区别了，针对分区表新增字段时不加CASCADE关键字时对于历史分区新插入的数据,那个新增的列名值都会显示为NULL反之可正常显示。

特别说明

如果想改变新增的列在某列之后使用after关键字即执行

ALTER TABLE aiops.par_c  CHANGE COLUMN loc loc2 string  after name CASCADE;

如果存储格式是parquet格式的，那么这新增的列的数据都是null，就会出现问题,如果是普通文本格式则不会出现。

parquet存储格式在这种操作之后的情况

textfile存储格式这种操作之后的情况

参考链接：

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-AlterTable/PartitionProtections

点个在看你最好看

沧海寄馀生

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
HIVE 中的 CASCADE关键字

“才感春来忽而已夏????”THE ROMANCE OF SPRING简要解释CASCADE的中文翻译为"级联"，顾名思义就是就是与之有联系的。在针对HIVE也就是不仅变更新分区的表结构（metadata），同时也变更旧分区的表结构。接下来我们要验证这个关键字对分区表新增字段之后有什么影响？背景说明在生产环境中,由于用户对HIVE知识了解不深,在针对分区表时对表新增字段,没有使用cascade关键字...
复制链接

扫一扫