Hbase和Hive集成
1.目的
HBase是一个数据库! 是一个NoSQL数据库!
Hive是一个分析工具! 类SQL分析框架!
HBase和Hive集成的目的是使用Hive来分析HBase中存储的数据!
https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration
2.使用场景
环境要求:
①有HIVE_HOME 和 HBASE_HOME这两个环境变量!
②hive集成hbase的jar包:hive-hbase-handler-1.2.1.jar
场景一:HBase中已经存储了大量的数据,只需要使用Hive分析
在Hive中建表,并且和HBase中的数据进行映射!
格式:
CREATE TABLE hbase_table_1(key int, value string)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")
TBLPROPERTIES ("hbase.table.name" = "xyz", "hbase.mapred.output.outputtable" = "xyz");
映射规则:
- Hive的表名随便起
- Hive表的列的数量需要和Hbase表中列的数量(+1)一致
- Hive表中列的类型需要和HBase表中列的类型不能冲突
- hbase.columns.mapping要求Hive中每列和hbase中每列映射的顺序必须一直
- :key代表rowkey
- 如果hbase中的表已经存在了,在Hive中映射的必须是外部表
- hbase.table.name是可选的,如果不写Hive的表名必须和hbase的表名一致,hbase.mapred.output.outputtable也是可选的,代表使用Hive写数据时,写到hbase的哪张表
CREATE external TABLE hbase_t1(
rowkey string,
name string,
gender string,
age int
)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,f1:name,f3:gender,f2:age")
TBLPROPERTIES ("hbase.table.name" = "t1");
在Hive中编写HQL分析
场景二:除了使用Hive分析HBase中的数据外,希望使用Hive的insert语句,向hbase插入一些数据
在Hive中建表时,hbase中的表还没建,希望通过Hive执行insert语句,在HBase中建表,顺便生成数据!
CREATE TABLE hbase_emp(
id string,
name string,
sal double
)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,info:name,info:sal")
TBLPROPERTIES ("hbase.table.name" = "emp");
注意:
使用Hive向HBase插入数据时,如果HBase的表不存在,必须是MANAGED table!
在Hive中编写HQL分析,执行Insert语句插入数据!
3.备注
3.1 Storage Handler
Storage Handler 允许HIve可以分析HDFS之外的数据!要使用Hive分析哪个介质中的数据,只需要提供一个对应的Storage Handler!
例如: 数据在HBase中,必须有hive-hbase-handler!
3.2 本地表和非本地表
本地表(native table): 是一种Hive知道如何处理数据的表,无需Storage Handler 。数据就存储在HDFS!
create table ()
row_format (DELIMITED or SERDE) and STORED
非本地表(non-native table): 是一种必须有Storage Handler 的表!
create table ()
STORED BY