hive 删除某个分区中部分数据

目录

一、需求

二、思路

三、补充


一、需求

删除 hive 表中某个分区中的部分数据(不是删除该分区)

二、思路

1、数据库删除数据的本质其实是用新的数据去覆盖原有的表,只要新的数据中不含有你想删除的数据,就达到了删除的目的。

所以删除的语法是:

insert overwrite

2、删除分区表更复杂的一点是,要带上分区的限制:

insert overwrite table sanmei_db.sanmei_example partition(dt='2020-12-18') 
select ...

3、此外,写 select * 不对,要写明除分区字段的所有字段。比如,下面的写法会报错:

(假设我的需求是删除 2020.12.18 日分区中 count 字段超过 200 的数据)

insert overwrite table sanmei_db.sanmei_example partition(dt='2020-12-18') 
select * from sanmei_db.sanmei_example
where dt = '2020-12-18' and count < 200;

上述代码报错:

SQL 错误 [10044] [42000]: Error while compiling statement: FAILED: SemanticException [Error 10044]: Line 1:23 Cannot insert into target table because column number/types are different ''2020-12-18'': Table insclause-0 has 2 columns, but query has 3 columns.

因此,代码应该写成如下:

insert overwrite table sanmei_db.sanmei_example partition(dt='2020-12-18') 
select hour, count from sanmei_db.sanmei_example
where dt = '2020-12-18' and count < 200;

三、补充

Hive 1.x 版本中没有 delete 操作。

2.x 版本更新后支持,如果一个表要实现 update 和 delete 功能,该表就必须支持 ACID,而支持 ACID,就必须满足以下条件: 1、表的存储格式必须是 ORC(STORED AS ORC);

以上,问题解决~

  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值