HIVE实战处理（七） hive 新增字段联级（cascade）和json格式的hive表

最新推荐文章于 2024-04-23 07:00:00 发布

sheep8521

最新推荐文章于 2024-04-23 07:00:00 发布

阅读量5.9k

点赞数

分类专栏： hive

本文链接：https://blog.csdn.net/sheep8521/article/details/107833196

版权

hive 专栏收录该内容

43 篇文章 10 订阅

订阅专栏

一、问题描述：
实际应用中，常常存在修改数据表结构的需求，比如：增加一个新字段。
如果使用一般的add columns(col1 string)的语句增加字段的话，对于旧分区中的col1将为空且无法更新，即便insert overwrite该分区也不会生效。

1、准备一个分区表test_partition
在这里插入图片描述

2、测试数据新增字段

alter table temp.test_partition add columns (hour string);

在这里插入图片描述
3、插入数据

插入失败，所以原来的插入方式对以前分分区是不生效的，这个在生产中刷数据是没有意义的。

4、Hive的联级（cascade）正确的增加分区方式。

alter table temp.test_partition add columns(
hour    string
) cascade;

字段已经添加成功。
在这里插入图片描述
新增加的字段hour1以及之前的没有级联的字段hour的数据也能一并插入成功

二、创建自带解析json格式的hive表
1、创建json格式解析的hive表

create table temp.tmp_hxr_test_json_ex 
(udid string)
row format serde 'org.openx.data.jsonserde.JsonSerDe'
stored as textfile;

查询表结构：
在这里插入图片描述
准备样例数据：

加载数据到hive表

查询对应的hive表数据，确认数据加载成功。

2、修改表的序列化方式
注意：如果是这种第三方的序列化的方式的表,需要更新表结构的话，需要先变更serde方式为原始自带的方式。

alter table temp.tmp_hxr_test_json_ex 
 SET FILEFORMAT INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe';

3、添加新的column

alter table temp.tmp_hxr_test_json_ex
add columns(
visit_time  string
);

4、本来想保留原始自带的serde方式进行查询，这样的话就不用来回更新SERDE了。但是实际查询数据有异常。

执行完上面2段命令后查询表结构，新增字段已经更新，但是查询数据还是会有错位失败。
在这里插入图片描述

5、重新修改回原来的serde方式，再查询数据，数据完美呈现。

alter table temp.tmp_hxr_test_json_ex
 SET FILEFORMAT INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
SERDE 'org.openx.data.jsonserde.JsonSerDe';

在这里插入图片描述

sheep8521

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
HIVE实战处理（七） hive 新增字段联级（cascade）和json格式的hive表

问题描述：实际应用中，常常存在修改数据表结构的需求，比如：增加一个新字段。如果使用一般的add columns(col1 string)的语句增加字段的话，对于旧分区中的col1将为空且无法更新，即便insert overwrite该分区也不会生效。1、准备一个分区表test_partition2、测试数据新增字段alter table temp.test_partition add columns (hour string);3、插入数据插入失败，所以原来的插入方式对以前分分区是不生
复制链接

扫一扫