通过Spark访问Hbase的Hive外部表(hive on hbase的表)

业务处理的过程中,使用到pyspark访问hive,直接访问没有问题,
后面遇到使用pyspark访问hive关联hbase的表(hive on hbase),就出现报错了。


首先集群已经可以通过spark-sql读取hive的数据,然后进行如下配置。

1.拷贝如下jar包到${spark_home}/jars(spark2.0之前是${spark_home}/lib):

    hbase-protocol-1.2.0-cdh5.10.2.jar
    hbase-client-1.2.0-cdh5.10.2.jar
    hbase-common-1.2.0-cdh5.10.2.jar
    hbase-server-1.2.0-cdh5.10.2.jar
    hive-hbase-handler-1.1.0-cdh5.10.2.jar

2.将hbase的配置文件 hbase-site.xml 拷贝到${spark_home}/conf目录下。
这一步为了解决一些配置的访问问题,如zookeeper、hbase等

3.测试

spark-sql --jars /usr/lib/hbase-current/lib/hbase-server-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-common-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-client-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-protocol-1.1.1.jar,/usr/lib/hive-current/lib/hive-hbase-handler-2.3.3.jar
pyspark --jars /usr/lib/hbase-current/lib/hbase-server-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-common-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-client-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-protocol-1.1.1.jar,/usr/lib/hive-current/lib/hive-hbase-handler-2.3.3.jar

注:/usr/lib/hbase-current/lib/为调用jar的路径,如果第一步操作了就不用跟这些jar包,如果没有做第一步,就调用一下,一样可以使用。

#建立Hbase的Hive外部表

spark.sql('''
create external table hbase_hive_external_table( key string, col map<string,string>)
STORED BY "org.apache.hadoop.hive.hbase.HBaseStorageHandler"
WITH SERDEPROPERTIES ("hbase.columns.mapping" = "t:")
TBLPROPERTIES("hbase.table.name" = "hive_hbase_test"
''')

#spark-sql直接读取

spark.sql("select * from hbase_hive_external_table")

#先落地成Parquet文件再读取,速度会快一些

spark.sql("create table temp.hbase_hive_parquet  stored as parquet as select * from hbase_hive_external_table")
spark.read.parquet("/user/hive/warehouse/temp.db/hbase_hive_parquet")

参考:

https://blog.csdn.net/hchzhao_1985/article/details/82717949
https://developer.aliyun.com/ask/127707?spm=a2c6h.13159736

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值