业务处理的过程中,使用到pyspark访问hive,直接访问没有问题,
后面遇到使用pyspark访问hive关联hbase的表(hive on hbase),就出现报错了。
首先集群已经可以通过spark-sql读取hive的数据,然后进行如下配置。
1.拷贝如下jar包到${spark_home}/jars(spark2.0之前是${spark_home}/lib):
hbase-protocol-1.2.0-cdh5.10.2.jar
hbase-client-1.2.0-cdh5.10.2.jar
hbase-common-1.2.0-cdh5.10.2.jar
hbase-server-1.2.0-cdh5.10.2.jar
hive-hbase-handler-1.1.0-cdh5.10.2.jar
2.将hbase的配置文件 hbase-site.xml 拷贝到${spark_home}/conf目录下。
这一步为了解决一些配置的访问问题,如zookeeper、hbase等
3.测试
spark-sql --jars /usr/lib/hbase-current/lib/hbase-server-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-common-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-client-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-protocol-1.1.1.jar,/usr/lib/hive-current/lib/hive-hbase-handler-2.3.3.jar
pyspark --jars /usr/lib/hbase-current/lib/hbase-server-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-common-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-client-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-protocol-1.1.1.jar,/usr/lib/hive-current/lib/hive-hbase-handler-2.3.3.jar
注:/usr/lib/hbase-current/lib/为调用jar的路径,如果第一步操作了就不用跟这些jar包,如果没有做第一步,就调用一下,一样可以使用。
#建立Hbase的Hive外部表
spark.sql('''
create external table hbase_hive_external_table( key string, col map<string,string>)
STORED BY "org.apache.hadoop.hive.hbase.HBaseStorageHandler"
WITH SERDEPROPERTIES ("hbase.columns.mapping" = "t:")
TBLPROPERTIES("hbase.table.name" = "hive_hbase_test"
''')
#spark-sql直接读取
spark.sql("select * from hbase_hive_external_table")
#先落地成Parquet文件再读取,速度会快一些
spark.sql("create table temp.hbase_hive_parquet stored as parquet as select * from hbase_hive_external_table")
spark.read.parquet("/user/hive/warehouse/temp.db/hbase_hive_parquet")
参考:
https://blog.csdn.net/hchzhao_1985/article/details/82717949
https://developer.aliyun.com/ask/127707?spm=a2c6h.13159736