Hive数据更新与删除策略-CSDN博客

本文链接：https://blog.csdn.net/hugolyl/article/details/48052251

HIVE是一个数据仓库系统,这就意味着它可以不支持普通数据库的CRUD操作。CRUD应该在导入HIVE数据仓库前完成。
而且鉴于 hdfs 的特点，其并不能高效的支持流式访问，访问都是以遍历整个文件块的方式。hive 0.7 之后已经支持
索引，但是很弱，尚没有成熟的线上方案。
关于 hive 的删除和更新有如下办法：
一、行级的更新和删除：通过 hbase 进行。
数据保存在HBase中，Hive从HBase中查询数据，这个官方提供 hive-hbase-handler 插件支持，通过 thrift hive-service 进行通信
优点：
适用性比较普遍，单行和批量修改都可以使用，并且修改也比较方便；修改也比较快速。
缺点：
（1）查询的时候，性能较数据保存在HDFS的场景慢一些。
（2）通过 hbase 删除可能会有延时导致脏数据，因为 habse 删数据是先逻辑删除，然后等待下一次 compact 再物理删除。
（3）这种方式产生的 hive 表将不能再更改表结构，alt table 操作直接抛异常。
（4）尚没有验证这种方案在大数据量的场景下的可行性。
二、批量更新和删除：可以相应的使用 insert as select 的方式来实现。
不更改HIVE的设计，利用HiveQL实现update和delete，虽然效率比较低，但是也可以实现update和delete操作。
delete操作实现：
用select语句筛选出不delete的数据，用这些数据覆盖原来的表，如我们想删除score在60分以下的行，可以用:
INSERT OVERWRITE students SELECT students.* from students where score >= 60;
update操作的实现：
将要更新的数据从数据库中选出放入一个本地临时的文件中，如要更新60分以下的学生的数据，可以使用:
INSERT OVERRITE LOCAL DIRECTORY "/tmp/students.1" SELECT students.* from students where score < 60;
删除要更新的数据：
INSERT OVERWRITE students SELECT students.* from students where score >=60;
编辑要更新的数据文件或者将要修改的数据放入数据库表后再修改，修改结束后载入到表中：LOAD DATA INPATH "/tmp/students.1" INTO TABLE students如果对表进行分区，上述的update和delete速度会快一些。
缺点：
同一个操作扫描了 2 遍 hdfs，还不如 MR 批量更新来得快和简洁。

Hive 查询