Hive ACID
要实现update和delete功能,该表就必须支持ACID,而支持ACID,就必须满足以下条件:
表的存储格式必须是ORC(STORED AS ORC);
表必须进行分桶(CLUSTERED BY (col_name, col_name, …) INTO num_buckets BUCKETS);
Table property中参数transactional必须设定为True(tblproperties(‘transactional’=‘true’));
Hive使用update和delete中有两种常见报错
报错一:Attempt to do update or delete using transaction manager that does not support these operations.
报错二:Attempt to do update or delete on table liuli.cars that does not use an AcidOutputFormat or is not bucketed
报错一解决方案:配置hive-site.xml
服务端
hive-site.xml 的 Hive 服务高级配置代码段(安全阀)
hive.compactor.initiator.on – true
hive.compactor.worker.threads – 1
hive.txn.manager – org.apache.hadoop.hive.ql.lockmgr.DbTxnManager
客户端
hive-site.xml 的 Hive 客户端高级配置代码段(安全阀)
hive.support.concurrency – true
hive.enforce.bucketing – true
hive.exec.dynamic.partition.mode – nonstrict
hive.txn.manager – org.apache.hadoop.hive.ql.lockmgr.DbTxnManager
报错二解决方案
字面意思是我的这个表不是AcidOutputFormat或bucketed格式,所以是表的问题。
通过sqoop导入的时候指定ORC格式的表。
思考
- 1、Hive可以通过修改参数达到修改和删除数据的效果,但是速度远远没有传统关系型数据库快
- 2、通过ORC的每个task只输出单个文件和自带索引的特性,以及数据的分桶操作,可以将要修改的数据锁定在一个很小的文件块,因此可以做到相对便捷的文件修改操作。因此数据的分桶操作非常重要,通常一些表单信息都会根据具体的表单id进行删除与修改,因此推荐使用表单ID作为分桶字段。
- 3、频繁的update和delete操作已经违背了hive的初衷。不到万不得已的情况,还是使用增量添加的方式最好。
- 4、实际使用场景中hive数据默认为已经处理无误可用于分析的数据,通常使用全量或增量更新,对于可变更的数据通常存于oracle、mysql关系型数据库中。
- 5、因此hive最好搭配关系型数据库数据中心使用,数据中心更新好的数据通过sqoop等方式同步到hive。
参考: