Hive表字段类型修改

最新推荐文章于 2024-01-25 00:56:35 发布

dkjkls

最新推荐文章于 2024-01-25 00:56:35 发布

阅读量8.5k

点赞数

分类专栏：大数据文章标签：大数据 hive SQL 修复分区

本文链接：https://blog.csdn.net/dkjkls/article/details/90356491

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.分区表的复制

1.1 使用动态分区插入复制表

A 创建一张和原表一样表结构的复制表

B 通过插入语句（insert overwrite），使用动态分区把数据导入复制表

SET hive.exec.dynamic.partition.mode=nonstrict;
CREATE TABLE table_copy like table_original;
INSERT overwrite TABLE table_copy PARTITION (product_id,period_type,pt)
SELECT city_id,city_name,site,product_id as product_id,period_type as period_type,pt as pt from table_original;

1.2 使用msck修复分区

A 创建一张和原表一样表结构的复制表

B 复制表table_original目录下的hdfs文件到表table_copy

C 使用分区表的msck命令重新生成分区

CREATE TABLE table_copy like table_original;
dfs -cp hdfs://user/hive/warehouse/temp.db/table_original/* hdfs://user/hive/warehouse/temp.db/table_copy/;
msck repair table temp.table_copy;

该方法比使用动态分区速度更快，因为数据的复制是直接使用的hdfs文件，而不是启动MapReduce作业

2.修改下游依赖，修改字段类型

在元数据平台中修改hive表字段类型，需先将下游依赖去掉，才可修改

修改字段时选择【不级联】

级联：旧数据存在无法读取的风险，建议重刷旧数据，对新数据无影响

不级联：新旧数据均能读取，但存在新旧字段不一致的风险

3.旧数据的修复

A 删除需要修复的数据分区

B 使用动态分区，对复制表转换修改字段类型，插入原表

ALTER TABLE table_original drop partition (pt>='20190331000000');
SET hive.exec.dynamic.partition.mode=nonstrict;
INSERT OVERWRITE TABLE table_original
PARTITION (product_id,period_type,pt)
SELECT city_id,city_name,site,cast(location_id as string) location_id,product_id as product_id,period_type as period_type,pt as pt
FROM table_copy where pt between '20190410000000' and '20190425000000'

--------------------------文档信息--------------------------
版权声明：本文为博主原创文章，未经博主允许不得转载
署名(BY) ：dkjkls（dkj卡洛斯）
文章出处：http://blog.csdn.net/dkjkls

dkjkls

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hive表字段类型修改

1.分区表的复制1.1 使用动态分区插入复制表A 创建一张和原表一样表结构的复制表B 通过插入语句（insert overwrite），使用动态分区把数据导入复制表SET hive.exec.dynamic.partition.mode=nonstrict;CREATE TABLE table_copy like table_original;INSERT overwrite TABL...
复制链接

扫一扫