Hive和Hbase数据整合交互

Hive和Hbase数据整合交互

文章及测试案例均来自于参考文档,参考文档写的很详细,想了解更多的可以看下参考文档。

使用Ambari+HDP安装的hive3.1.0和hbase

hive3.1.0下面已经存在hbase的jar包

无需像网上说的拷贝jar包或者配置环境变量,什么都不用配置,直接进入hive和hbase的客户端操作

有个问题
就是hive和hbase用一个数据源时,hive聚合特别特别慢,而且会有报错的情况产生,如果实在想用,就通过hbase和hive的表hive_hbase_tab 再创建一个一模一样数据的表hive_hbase_tab_tmp,使用该表聚合操作(也可以创建临时表,根据业务场景来)

create table hive_hbase_tab_tmp as select * from hive_hbase_tab
临时表
create temporary table tmp as select * fromhive_hbase_tab

hive和hbase对比

1、通过 Hive 与 HBase 整合,可以将 HBase 的数据通过 Hive 来分析,让 HBase 支持 JOIN、GROUP 等 SQL 查询语法。
2、Hive和Hbase是两种基于Hadoop的不同技术,Hive是一种类SQL的引擎,并且运行MapReduce任务,Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。这两种工具是可以同时使用的。就像用Google来搜索,用FaceBook进行社交一样,Hive可以用来进行统计查询,HBase可以用来进行实时查询,数据也可以从Hive写到HBase,或者从HBase写回Hive。
3、面对大量的企业数据,HBase可以直线单表大量数据的存储,同时提供了高效的数据访问速度。

Hbase表映射成hive中

Hive内部表,语句如下

1、hive中建表

CREATE TABLE member(
m_id string ,
address_contry string ,
address_province string ,
address_city string ,
info_age string ,
info_birthday string ,
info_company string
)STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'    
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,address:contry,address:province,address:city,info:age,info:birthday,info:company")   
TBLPROPERTIES("hbase.table.name" = "member");

2、hbase中表会自动创建, 然后向hbase中插入数据

put'member','scutshuxue','info:age','24'
put'member','scutshuxue','info:birthday','1987-06-17'
put'member','scutshuxue','info:company','alibaba'
put'member','scutshuxue','address:contry','china' 
put'member','scutshuxue','address:province','zhejiang' 
put'member','scutshuxue','address:city','hangzhou' 
put'member','zhangsan','info:age','25'
put'member','zhangsan','info:birthday','1997-06-17'
put'member','zhangsan','info:company','alibaba'
put'member','zhangsan','address:contry','china' 
put'member','zhangsan','address:province','sichuan' 
put'member','zhangsan','address:city','chendu' 

3、hive中就可以查询数据了

select * from member;

**注意:
hive向表中插入一条数据,hbase也可以查询的出来,但是注意不要插入相同主键的数据
hbase中插入的数据不能新增字段,因为没有建立映射,hive无法查询出来,所以在创建hive表和hbase映射时,要尽可能的把可能会出现的所有字段都建立起来映射关系

Hive外部表,语句如下

先在hbase建好表,然后在hive中建表,如果hive drop掉表,hbase表不会变

1、Hbase中建表

create 'student','m_id','address','info'

2、hbase中插入数据

put'student','scutshuxue','info:age','24'
put'student','scutshuxue','info:birthday','1987-06-17'
put'student','scutshuxue','info:company','alibaba'
put'student','scutshuxue','address:contry','china' 
put'student','scutshuxue','address:province','zhejiang' 
put'student','scutshuxue','address:city','hangzhou' 
put'student','zhangsan','info:age','25'
put'student','zhangsan','info:birthday','1997-06-17'
put'student','zhangsan','info:company','alibaba'
put'student','zhangsan','address:contry','china' 
put'student','zhangsan','address:province','sichuan' 
put'student','zhangsan','address:city','chendu'

3、hive中建表(外部表)

CREATE EXTERNAL TABLE student(
m_id string ,
address_contry string ,
address_province string ,
address_city string ,
info_age string ,
info_birthday string ,
info_company string
)STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'    
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,address:contry,address:province,address:city,info:age,info:birthday,info:company")   
TBLPROPERTIES("hbase.table.name" = "student");
:key,是hbase的rowkey
address:contry,是hbase的列族和列名 多列时:data:1,data:2;多列族时:data1:1,data2:1;

4、hive中就可以查询数据了

select * from student;

hive表映射成Hbase中

创建外部表

CREATE EXTERNAL TABLE hive_table (hbase_key int, value string) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")
TBLPROPERTIES ("hbase.table.name" = "default:hbase_table");

SERDEPROPERTIES中的 :key 是固定写法,必须有, TABLE hive_table (hbase_key int, value string)中的hbase_key对应 :key

这里简单说一下建表时的参数:

  • hbase.columns.mapping 是必须的,这将会和 HBase 表的列族进行验证。
  • hbase.table.name 属性是可选的,默认指定 HBase 表名与 Hive 表名一致。

此时,hive_table 与 hbase_table 都是空的。我们准备一些数据插入到hive表中

insert into hive_table (hbase_key, value) values(1, "www.ymq.io");

任务完成之后,Hive 与 HBase 表中就都存在数据了。

# hive_table 表数据
+-----------------+-------------------+
| hive_table.hbase_key  | hive_table.value  |
+-----------------+-------------------+
| 1               | www.ymq.io        |
+-----------------+-------------------+
# hbase_table表数据
hbase(main):002:0> scan 'hbase_table'
ROW                                    COLUMN+CELL                                                                                                  
 1                                     column=cf1:val, timestamp=1558710260266, value=www.ymq.io                                                    
1 row(s)
Took 0.2400 seconds

当将 hive_table 表删除,对应的 hbase_table 表不受影响,里面依旧有数据。当删除 hbase_table 表后,再查询 hive_table 表数据,会报错:Error: java.io.IOException: org.apache.hadoop.hbase.TableNotFoundException: hbase_table (state=,code=0),这是正常的。

需要一个临时表 通过load加载数据到临时表 然后再通过hive sql查询该表数据插入到最终目标表
**注意!注意!注意:** 在上述示例中,我们使用的 insert 命令向 Hive 表中插入数据。对于批量数据的插入,还是建议使用 load 命令,但对于 Hive 外部表来说,不支持 load 命令。我们可以先创建一个 Hive 内部表,将数据 load 到该表中,最后将查询内部表的所有数据都插入到与 HBase 关联的 Hive 外部表中,就可以了,相当于中转一下。

创建有分区的表

create table hbase_table_1(key int, value string) 
partitioned by (day string)
stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
with serdeproperties ("hbase.columns.mapping" = ":key,cf1:val")
tblproperties ("hbase.table.name" = "xyz");

不支持表的修改
会提示不能修改非本地表。

hive> ALTER TABLE hbase_table_1 ADD PARTITION (day = '2012-09-22');
FAILED: Error in metadata: Cannot use ALTER TABLE on a non-native table FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask 

总结

  • 使用 hive-hbase-handler-xxx.jar 包实现 Hive 与 HBase 关联。
  • Hive 读取的是 HBase 表最新的数据。
  • 通过 Hive 创建的 HBase 表的值默认只有一个 VERSION ,可之后再修改 HBase 表值的最大 VERSION 数。
  • Hive 只显示与 HBase 对应的列值,而那些没有对应的 HBase 列在 Hive 表中不显示。
  • Hive 表与 HBase 表关联后,数据可以在 Hive 端插入,也可在 HBase 中插入。
  • 创建 Hive 外部表与 HBase 的关联,可实现将 Hive 数据导入到 HBase 中。该方式是利用两者本身对外的 API 接口互相通信来完成的,在数据量不大(4T以下)的情况下可以选择该方式导入数据。

参考文档

https://cloud.tencent.com/developer/article/1437261

https://my.oschina.net/repine/blog/285015#OSC_h1_5

https://blog.csdn.net/hekf2010/article/details/79173329

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值