用HIVE有几年了,猛然间听说HIVE还能支持delete XXX/update XXX,我都惊了。难道这么重要的功能被我漏掉了?
我明明记得几年之前在hadoop大会上,阿里的人分享他们做了个delete,是要把整个partition都弄出来之后,然后删完之后再load回去。
----------------割-----------------------
往上一搜HIVE UPDATE或者HIVE ACID有一堆一堆的消息,但是都写的模凌两可,我直接在公司的HIVE集群上建表尝试完全不行(Hive 1.1.0-cdh5.5.1)
后来有人说需要HIVE 0.14,有一线生机,我试试把。于是虚拟机、JAVA7、Hadoop2.6、HIVE0.14装好了,一番折腾真的可以delete和update了。作法如下:
1. 不要启动hive之后在命令行敲一堆set,那样不管用。所有的设置都需要放到hive-site.xml中
<property>
<name>hive.support.concurrency</name>
<value>true</value>
</property>
<property>
<name>hive.enforce.bucketing</name>
<value>true</value>
</property>
<property>
<name>hive.exec.dynamic.partition.mode</name>
<value>nonstrict</value>
</property>
<property>
<name>hive.txn.manager</name>
<value>org.apache.hadoop.hive.ql.lockmgr.DbTxnManager</value>
</property>
<property>
<name>hive.compactor.initiator.on</name>
<value>true</value>
</property>
<property>
<name>hive.compactor.worker.threads</name>
<value>1</value>
</property>
有的解释说必须设置hive.in.test为true,后来我没有设置也可以了。
2. 启动hive之后验证一下把:
create table table2_test (
EmployeeID Int, FirstName String, Designation String,
Salary Int,Department String
)
clustered by (department) into 3 buckets
stored as orc TBLPROPERTIES ('transactional'='true');
Insert into table table2_test values
(102, 'Employee102','Designation102', 10101, 'Dept102'),
(103, 'Employee103','Designation103', 10102, 'Dept103');
update table2_test set firstname='gaojunxiu111' where salary=10101;
sql运行时都会启动MapReduce来执行。