Hive不支持update、delete解决方案

Hive ACID

要实现update和delete功能,该表就必须支持ACID,而支持ACID,就必须满足以下条件:

  • 表的存储格式必须是ORC(STORED AS ORC);

  • 表必须进行分桶(CLUSTERED BY (col_name, col_name, …) INTO num_buckets BUCKETS);

  • Table property中参数transactional必须设定为True(tblproperties(‘transactional’=‘true’));

Hive使用update和delete中有两种常见报错

报错一:Attempt to do update or delete using transaction manager that does not support these operations.

报错二:Attempt to do update or delete on table liuli.cars that does not use an AcidOutputFormat or is not bucketed

 报错一解决方案:配置hive-site.xml

服务端
hive-site.xml 的 Hive 服务高级配置代码段(安全阀)

  • hive.compactor.initiator.on – true

  • hive.compactor.worker.threads – 1

  • hive.txn.manager – org.apache.hadoop.hive.ql.lockmgr.DbTxnManager

客户端
hive-site.xml 的 Hive 客户端高级配置代码段(安全阀)

  • hive.support.concurrency – true

  • hive.enforce.bucketing – true

  • hive.exec.dynamic.partition.mode – nonstrict

  • hive.txn.manager – org.apache.hadoop.hive.ql.lockmgr.DbTxnManager

 报错二解决方案 

字面意思是我的这个表不是AcidOutputFormat或bucketed格式,所以是表的问题。

通过sqoop导入的时候指定ORC格式的表。

思考

  • 1、Hive可以通过修改参数达到修改和删除数据的效果,但是速度远远没有传统关系型数据库快
  • 2、通过ORC的每个task只输出单个文件和自带索引的特性,以及数据的分桶操作,可以将要修改的数据锁定在一个很小的文件块,因此可以做到相对便捷的文件修改操作。因此数据的分桶操作非常重要,通常一些表单信息都会根据具体的表单id进行删除与修改,因此推荐使用表单ID作为分桶字段。
  • 3、频繁的update和delete操作已经违背了hive的初衷。不到万不得已的情况,还是使用增量添加的方式最好。
  • 4、实际使用场景中hive数据默认为已经处理无误可用于分析的数据,通常使用全量或增量更新,对于可变更的数据通常存于oracle、mysql关系型数据库中。
  • 5、因此hive最好搭配关系型数据库数据中心使用,数据中心更新好的数据通过sqoop等方式同步到hive。

参考:

https://blog.csdn.net/qq_39680564/article/details/101197852

https://blog.csdn.net/qq_39680564/article/details/101015864

  • 0
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值