Hive不支持update、delete解决方案

最新推荐文章于 2024-05-23 09:18:37 发布

one code

最新推荐文章于 2024-05-23 09:18:37 发布

阅读量8.7k

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/Wh1teMaster/article/details/108492291

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Hive ACID

要实现update和delete功能，该表就必须支持ACID，而支持ACID，就必须满足以下条件：

表的存储格式必须是ORC（STORED AS ORC）；

表必须进行分桶（CLUSTERED BY (col_name, col_name, …) INTO num_buckets BUCKETS）；

Table property中参数transactional必须设定为True（tblproperties(‘transactional’=‘true’)）；

Hive使用update和delete中有两种常见报错

报错一：Attempt to do update or delete using transaction manager that does not support these operations.

报错二：Attempt to do update or delete on table liuli.cars that does not use an AcidOutputFormat or is not bucketed

报错一解决方案：配置hive-site.xml

服务端
hive-site.xml 的 Hive 服务高级配置代码段（安全阀）

hive.compactor.initiator.on – true

hive.compactor.worker.threads – 1

hive.txn.manager – org.apache.hadoop.hive.ql.lockmgr.DbTxnManager

客户端
hive-site.xml 的 Hive 客户端高级配置代码段（安全阀）

hive.support.concurrency – true

hive.enforce.bucketing – true

hive.exec.dynamic.partition.mode – nonstrict

hive.txn.manager – org.apache.hadoop.hive.ql.lockmgr.DbTxnManager

报错二解决方案

字面意思是我的这个表不是AcidOutputFormat或bucketed格式，所以是表的问题。

通过sqoop导入的时候指定ORC格式的表。

思考

1、Hive可以通过修改参数达到修改和删除数据的效果，但是速度远远没有传统关系型数据库快
2、通过ORC的每个task只输出单个文件和自带索引的特性，以及数据的分桶操作，可以将要修改的数据锁定在一个很小的文件块，因此可以做到相对便捷的文件修改操作。因此数据的分桶操作非常重要，通常一些表单信息都会根据具体的表单id进行删除与修改，因此推荐使用表单ID作为分桶字段。
3、频繁的update和delete操作已经违背了hive的初衷。不到万不得已的情况，还是使用增量添加的方式最好。
4、实际使用场景中hive数据默认为已经处理无误可用于分析的数据，通常使用全量或增量更新，对于可变更的数据通常存于oracle、mysql关系型数据库中。
5、因此hive最好搭配关系型数据库数据中心使用，数据中心更新好的数据通过sqoop等方式同步到hive。

参考：

https://blog.csdn.net/qq_39680564/article/details/101197852

https://blog.csdn.net/qq_39680564/article/details/101015864

one code

关注

0
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
Hive不支持update、delete解决方案

Hive ACID要实现update和delete功能，该表就必须支持ACID，而支持ACID，就必须满足以下条件：表的存储格式必须是ORC（STORED AS ORC）；表必须进行分桶（CLUSTERED BY (col_name, col_name, …) INTO num_buckets BUCKETS）； Table property中参数transactional必须设定为True（tblproperties(‘transactional’=‘true’)）；
复制链接

扫一扫