hive on hbase

4 篇文章 0 订阅
1 篇文章 0 订阅

Hive on hbase (创建hive基于hbase的外部表,作为备忘笔记用)

软件环境:hadoop2.7.3+hive 2.3.9+hbase2.1.9
背景
需要同步数据到hive之中,并且对数据做处理分析。因为源端的数据可能会随时更改,而且因为特殊情况,不适合对数据进行overwrite操作,所以想着是如果让hive可以支持数据的更新以及删除操作。

最开始的时候经过查阅官网,发现可以通过对hive进行一系列的配置之后,使的hive表可以支持ACID的操作。但是以这种方式进行创建的表限制性很大,只适合通过hive的客户端进行查询操作,似乎不太适合在其他软件,例如spark上进行查询。

继续查询官网,发现了hive可以通过创建外部表的方式,将数据存储在hbase中,将hbase中的数据映射到hive中,进而解决hive无法完成数据的更新删除操作以及hbase无法通过sql的方式进行数据查询的功能。

创建方式如下:

create table if not exists person(
 id string,
 name string,
 age int,
 addr string,
 brithday timestamp
)
stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
with serdeproperties(
"hbase.columns.mapping"=
":key,st1:name,st1:age,st1:addr,st1:birthday")
 tblproperties("hbase.table.name"="person",
 "hbase.mapred.output.outputtable" = "person");

其中,hbase.columns.mapping的值为hbase中与hive表进行相互映射的字段,:key对应的hbase中表的rowkey,st1表示的是数据表中的列簇(row family),列簇后面的值是表示的在hbase存储的列(row)的名称,值的注意的是,这里的对照关系要写清楚,它不会根据名称进行自动映射的。

hbase.table.name以及hbase.mapred.output.outputtable的值,则是该数据存储在hbase中的表的名字,即hive中的person这张表是和hbase中的哪张表进行对应,hive和hbase中相互关联的表,表名可以相同,也可以不同。

创建成功后,在hbase一侧执行如下命令:

 put 'person','1','st1:name','zs'
 put 'person','1','st1:age','23'
 put 'person','1','st1:addr','中国北京'
 put 'person','1','st1:brithday','1928-12-04 12:45:47'

然后在hive侧执行

select * from person;

若能够在hive侧显示出数据,则创建关联表成功。若失败,则是hive以及hbase的版本存在不兼容问题,需检查hive以及hbase的版本进行调整。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

weixin_42934205

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值