Hive和Hbase数据整合交互

最新推荐文章于 2022-11-04 18:31:01 发布

idataduck

最新推荐文章于 2022-11-04 18:31:01 发布

阅读量608

点赞数

分类专栏： Hive 文章标签：大数据 hive hbase

原文链接：https://cloud.tencent.com/developer/article/1437261 ； https://my.oschina.net/repine/blog/285015#OSC_h1_5 ； https://blog.csdn.net/hekf2010/article/details/79173329

版权

Hive 专栏收录该内容

6 篇文章 1 订阅

订阅专栏

Hive和Hbase数据整合交互

文章及测试案例均来自于参考文档，参考文档写的很详细，想了解更多的可以看下参考文档。

使用Ambari+HDP安装的hive3.1.0和hbase

hive3.1.0下面已经存在hbase的jar包

无需像网上说的拷贝jar包或者配置环境变量，什么都不用配置，直接进入hive和hbase的客户端操作

有个问题
就是hive和hbase用一个数据源时，hive聚合特别特别慢，而且会有报错的情况产生，如果实在想用，就通过hbase和hive的表hive_hbase_tab 再创建一个一模一样数据的表hive_hbase_tab_tmp，使用该表聚合操作（也可以创建临时表，根据业务场景来）

create table hive_hbase_tab_tmp as select * from hive_hbase_tab

临时表
create temporary table tmp as select * fromhive_hbase_tab

hive和hbase对比

1、通过 Hive 与 HBase 整合，可以将 HBase 的数据通过 Hive 来分析，让 HBase 支持 JOIN、GROUP 等 SQL 查询语法。
2、Hive和Hbase是两种基于Hadoop的不同技术，Hive是一种类SQL的引擎，并且运行MapReduce任务，Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。这两种工具是可以同时使用的。就像用Google来搜索，用FaceBook进行社交一样，Hive可以用来进行统计查询，HBase可以用来进行实时查询，数据也可以从Hive写到HBase，或者从HBase写回Hive。
3、面对大量的企业数据，HBase可以直线单表大量数据的存储，同时提供了高效的数据访问速度。

Hbase表映射成hive中

Hive内部表，语句如下

1、hive中建表

CREATE TABLE member(
m_id string ,
address_contry string ,
address_province string ,
address_city string ,
info_age string ,
info_birthday string ,
info_company string
)STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'    
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,address:contry,address:province,address:city,info:age,info:birthday,info:company")   
TBLPROPERTIES("hbase.table.name" = "member");

2、hbase中表会自动创建, 然后向hbase中插入数据

put'member','scutshuxue','info:age','24'
put'member','scutshuxue','info:birthday','1987-06-17'
put'member','scutshuxue','info:company','alibaba'
put'member','scutshuxue','address:contry','china' 
put'member','scutshuxue','address:province','zhejiang' 
put'member','scutshuxue','address:city','hangzhou' 
put'member','zhangsan','info:age','25'
put'member','zhangsan','info:birthday','1997-06-17'
put'member','zhangsan','info:company','alibaba'
put'member','zhangsan','address:contry','china' 
put'member','zhangsan','address:province','sichuan' 
put'member','zhangsan','address:city','chendu'

3、hive中就可以查询数据了

select * from member;

**注意:
hive向表中插入一条数据，hbase也可以查询的出来，但是注意不要插入相同主键的数据
hbase中插入的数据不能新增字段，因为没有建立映射，hive无法查询出来，所以在创建hive表和hbase映射时，要尽可能的把可能会出现的所有字段都建立起来映射关系

Hive外部表，语句如下

先在hbase建好表，然后在hive中建表，如果hive drop掉表，hbase表不会变

1、Hbase中建表

create 'student','m_id','address','info'

2、hbase中插入数据

put'student','scutshuxue','info:age','24'
put'student','scutshuxue','info:birthday','1987-06-17'
put'student','scutshuxue','info:company','alibaba'
put'student','scutshuxue','address:contry','china' 
put'student','scutshuxue','address:province','zhejiang' 
put'student','scutshuxue','address:city','hangzhou' 
put'student','zhangsan','info:age','25'
put'student','zhangsan','info:birthday','1997-06-17'
put'student','zhangsan','info:company','alibaba'
put'student','zhangsan','address:contry','china' 
put'student','zhangsan','address:province','sichuan' 
put'student','zhangsan','address:city','chendu'

3、hive中建表（外部表）

CREATE EXTERNAL TABLE student(
m_id string ,
address_contry string ,
address_province string ,
address_city string ,
info_age string ,
info_birthday string ,
info_company string
)STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'    
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,address:contry,address:province,address:city,info:age,info:birthday,info:company")   
TBLPROPERTIES("hbase.table.name" = "student");

:key,是hbase的rowkey
address:contry,是hbase的列族和列名 多列时：data:1，data:2；多列族时：data1:1,data2:1；

4、hive中就可以查询数据了

select * from student;

hive表映射成Hbase中

创建外部表

CREATE EXTERNAL TABLE hive_table (hbase_key int, value string) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")
TBLPROPERTIES ("hbase.table.name" = "default:hbase_table");

SERDEPROPERTIES中的 :key 是固定写法，必须有， TABLE hive_table (hbase_key int, value string)中的hbase_key对应 :key

这里简单说一下建表时的参数：

hbase.columns.mapping 是必须的，这将会和 HBase 表的列族进行验证。
hbase.table.name 属性是可选的，默认指定 HBase 表名与 Hive 表名一致。

此时，hive_table 与 hbase_table 都是空的。我们准备一些数据插入到hive表中

insert into hive_table (hbase_key, value) values(1, "www.ymq.io");

任务完成之后，Hive 与 HBase 表中就都存在数据了。

# hive_table 表数据
+-----------------+-------------------+
| hive_table.hbase_key  | hive_table.value  |
+-----------------+-------------------+
| 1               | www.ymq.io        |
+-----------------+-------------------+
# hbase_table表数据
hbase(main):002:0> scan 'hbase_table'
ROW                                    COLUMN+CELL                                                                                                  
 1                                     column=cf1:val, timestamp=1558710260266, value=www.ymq.io                                                    
1 row(s)
Took 0.2400 seconds

当将 hive_table 表删除，对应的 hbase_table 表不受影响，里面依旧有数据。当删除 hbase_table 表后，再查询 hive_table 表数据，会报错：Error: java.io.IOException: org.apache.hadoop.hbase.TableNotFoundException: hbase_table (state=,code=0)，这是正常的。

需要一个临时表 通过load加载数据到临时表 然后再通过hive sql查询该表数据插入到最终目标表
**注意！注意！注意：** 在上述示例中，我们使用的 insert 命令向 Hive 表中插入数据。对于批量数据的插入，还是建议使用 load 命令，但对于 Hive 外部表来说，不支持 load 命令。我们可以先创建一个 Hive 内部表，将数据 load 到该表中，最后将查询内部表的所有数据都插入到与 HBase 关联的 Hive 外部表中，就可以了，相当于中转一下。

创建有分区的表

create table hbase_table_1(key int, value string) 
partitioned by (day string)
stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
with serdeproperties ("hbase.columns.mapping" = ":key,cf1:val")
tblproperties ("hbase.table.name" = "xyz");

不支持表的修改
会提示不能修改非本地表。

hive> ALTER TABLE hbase_table_1 ADD PARTITION (day = '2012-09-22');
FAILED: Error in metadata: Cannot use ALTER TABLE on a non-native table FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask

总结

使用 hive-hbase-handler-xxx.jar 包实现 Hive 与 HBase 关联。
Hive 读取的是 HBase 表最新的数据。
通过 Hive 创建的 HBase 表的值默认只有一个 VERSION ，可之后再修改 HBase 表值的最大 VERSION 数。
Hive 只显示与 HBase 对应的列值，而那些没有对应的 HBase 列在 Hive 表中不显示。
Hive 表与 HBase 表关联后，数据可以在 Hive 端插入，也可在 HBase 中插入。
创建 Hive 外部表与 HBase 的关联，可实现将 Hive 数据导入到 HBase 中。该方式是利用两者本身对外的 API 接口互相通信来完成的，在数据量不大（4T以下）的情况下可以选择该方式导入数据。

参考文档

https://cloud.tencent.com/developer/article/1437261

https://my.oschina.net/repine/blog/285015#OSC_h1_5

https://blog.csdn.net/hekf2010/article/details/79173329

idataduck

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Hive和Hbase数据整合交互

1、通过 Hive 与 HBase 整合，可以将 HBase 的数据通过 Hive 来分析，让 HBase 支持 JOIN、GROUP 等 SQL 查询语法。2、Hive和Hbase是两种基于Hadoop的不同技术，Hive是一种类SQL的引擎，并且运行MapReduce任务，Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。这两种工具是可以同时使用的。就像用Google来搜索，用FaceBook进行社交一样，Hive可以用来进行统计查询，HBase可以用来进行实时查询，数据也可以
复制链接

扫一扫