通过Phoenix存取Hbase

最新推荐文章于 2021-11-17 11:28:58 发布

公众号【五元杂货铺】

最新推荐文章于 2021-11-17 11:28:58 发布

阅读量724

点赞数

分类专栏： Spark Python语言文章标签： spark python、 Hbase Phoenix

本文链接：https://blog.csdn.net/qq_32284189/article/details/81215596

版权

Python语言同时被 2 个专栏收录

10 篇文章 1 订阅

订阅专栏

Spark

5 篇文章 1 订阅

订阅专栏

通过Phoenix存取Hbase

目前官网正文中给出了通过Phoenix存取Hbase的方法，这里介绍的是pyspark版本的存取方法，对于从hbase中取数据，目前官网的方法没有什么问题。详细代码可见下方：

try:
        TableName = options.HbaseTable
        df = spark.read \
            .format("org.apache.phoenix.spark") \
            .option("table", TableName) \
            .option("zkurl", "*******（zkurl）:/hbase-unsecure") \
            .load()
        df = df.select(df.DETAIL, df.ROWKEY, df.DATE)

    except Exception:
        traceback.print_exc()
        raise Exception('---GetHbaseData connecting db failed!---')

关于存的pyspark代码可参见下方：

    try:
        df.write.format("org.apache.phoenix.spark") \
            .mode("overwrite") \
            .option("table", options.HbaseTable) \
            .option("zkurl", "******(zkurl):/hbase-unsecure").save()
    except Exception:
        pass

但是对于通过Phoenix存数据，目前官网给出的方法在spark2.2.0版本中存在BUG，目前这个BUG还没有解决，BUG详情可见下方：

18/07/26 09:21:02 ERROR SparkHadoopMapReduceWriter: Aborting job job_20180726092056_0703.
java.lang.IllegalArgumentException: Can not create a Path from an empty string
	at org.apache.hadoop.fs.Path.checkPathArg(Path.java:126)
	at org.apache.hadoop.fs.Path.<init>(Path.java:134)
	at org.apache.hadoop.fs.Path.<init>(Path.java:88)
	at org.apache.spark.internal.io.HadoopMapReduceCommitProtocol.absPathStagingDir(HadoopMapReduceCommitProtocol.scala:58)
	at org.apache.spark.internal.io.HadoopMapReduceCommitProtocol.commitJob(HadoopMapReduceCommitProtocol.scala:132)
	at org.apache.spark.internal.io.SparkHadoopMapReduceWriter$.write(SparkHadoopMapReduceWriter.scala:101)
	at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1.apply$mcV$sp(PairRDDFunctions.scala:1085)
	at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1.apply(PairRDDFunctions.scala:1085)
	at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1.apply(PairRDDFunctions.scala:1085)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
	at org.apache.spark.rdd.RDD.withScope(RDD.scala:362)
	at org.apache.spark.rdd.PairRDDFunctions.saveAsNewAPIHadoopDataset(PairRDDFunctions.scala:1084)
	at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopFile$2.apply$mcV$sp(PairRDDFunctions.scala:1003)
	at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopFile$2.apply(PairRDDFunctions.scala:994)
	at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopFile$2.apply(PairRDDFunctions.scala:994)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
	at org.apache.spark.rdd.RDD.withScope(RDD.scala:362)
	at org.apache.spark.rdd.PairRDDFunctions.saveAsNewAPIHadoopFile(PairRDDFunctions.scala:994)
	at org.apache.phoenix.spark.DataFrameFunctions.saveToPhoenix(DataFrameFunctions.scala:59)
	at org.apache.phoenix.spark.DataFrameFunctions.saveToPhoenix(DataFrameFunctions.scala:28)
	at org.apache.phoenix.spark.DefaultSource.createRelation(DefaultSource.scala:47)
	at org.apache.spark.sql.execution.datasources.DataSource.write(DataSource.scala:472)
	at org.apache.spark.sql.execution.datasources.SaveIntoDataSourceCommand.run(SaveIntoDataSourceCommand.scala:48)
	at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult$lzycompute(commands.scala:58)
	at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult(commands.scala:56)
	at org.apache.spark.sql.execution.command.ExecutedCommandExec.doExecute(commands.scala:74)
	at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:117)
	at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:117)
	at org.apache.spark.sql.execution.SparkPlan$$anonfun$executeQuery$1.apply(SparkPlan.scala:138)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
	at org.apache.spark.sql.execution.SparkPlan.executeQuery(SparkPlan.scala:135)
	at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:116)
	at org.apache.spark.sql.execution.QueryExecution.toRdd$lzycompute(QueryExecution.scala:92)
	at org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:92)
	at org.apache.spark.sql.DataFrameWriter.runCommand(DataFrameWriter.scala:610)
	at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:233)
	at sun.reflect.GeneratedMethodAccessor48.invoke(Unknown Source)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.lang.reflect.Method.invoke(Method.java:498)
	at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
	at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
	at py4j.Gateway.invoke(Gateway.java:280)
	at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
	at py4j.commands.CallCommand.execute(CallCommand.java:79)
	at py4j.GatewayConnection.run(GatewayConnection.java:214)
	at java.lang.Thread.run(Thread.java:748)

目前针对此BUG存在几种解决方案：

更改当前环境的spark版本，可将spark版本降低至spark2.1版本。
仍然用此方法进行存储数据，利用try方法，不捕获异常让程序接着运行即可，报错信息不会消失，但数据仍然会存储在Hbase当中。

详情和更多解决办法也可参考https://issues.apache.org/jira/browse/PHOENIX-4056?attachmentSortBy=fileName

公众号【五元杂货铺】

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
通过Phoenix存取Hbase

通过Phoenix存取Hbase目前官网正文中给出了通过Phoenix存取Hbase的方法，这里介绍的是pyspark版本的存取方法，对于从hbase中取数据，目前官网的方法没有什么问题。详细代码可见下方：try: TableName = options.HbaseTable df = spark.read \ .format("o...
复制链接

扫一扫

专栏目录