Hive
maixia24
大数据、机器学习、区块链
展开
-
Mysql数据实时导入Hive
Mysql数据实时导入Hive背景目前,我公司大数据团队,使用的数据仓库是Hive。客户端开发团队,使用的数据库是Mysql,客户端上的各种数据都存储在了Mysql中。每天凌晨,大数据团队会批量把Mysql从库的全部数据导入Hive。此方案存在的问题是:每天全量导入数据耗时较长,且对集群消耗较大。Hive中数据每天更新一次,时效性较低。在批量导入过程中,不能对Hive进行任何操作...原创 2019-01-27 23:37:00 · 7310 阅读 · 3 评论 -
hive事务讲解
hive事务讲解hive0.14版本之后,开始支持事务。hive中事务的引入,使Hive支持行级别的ACID,读操作与写操作不会冲突。hive事务的限制条件1.在现在的版本中,只支持ORC文件格式。2.默认情况下,hive的事务性是关闭的,开启需要设置transactional=true。3.表必须是Bucket表。4.外部表不能成为ACID表,因为外部表的变化,不能被Compact控...原创 2019-01-27 23:38:17 · 2248 阅读 · 0 评论 -
Streaming Data Ingest介绍
Streaming Data Ingest介绍主要是使用Hive HCatalog Streaming API传统情况下增加新的数据,需要收集hdfs上的数据,并且定期的向新的分区中增加。那么,batch insert是很有必要的。之前,不能向已存在的分区中插入数据,现在,hive0.14版本之后,Hive Streaming Api支持持续的插入数据。新插入的数据,可以在一个批次中,提...原创 2019-01-27 23:39:02 · 1368 阅读 · 0 评论 -
HCatalog Streaming Mutation API
HCatalog Streaming Mutation API背景Hive新版本支持插入,删除,更新操作,ORC格式的文件支持同一个事务中的大批量数据修改,Hive的执行引擎,现在在每一个单独的事务中提交每一个独立的修改操作,然后,让hive表扫描(这些扫描其实是MR任务)来执行修改操作。这种方式不能满足在一个原子的管理方式下,处理大量的deltas文件。Streaming API只能写新...原创 2019-01-27 23:39:52 · 462 阅读 · 0 评论