Pyspark实战（四）pyspark操作hbase

最新推荐文章于 2023-05-12 23:15:48 发布

落叶1210

最新推荐文章于 2023-05-12 23:15:48 发布

阅读量2.1k

点赞数

分类专栏：大数据 pyspark 文章标签： pyspark sparksql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/luoye4321/article/details/94413038

版权

大数据同时被 2 个专栏收录

13 篇文章 2 订阅

订阅专栏

6 篇文章 2 订阅

订阅专栏

环境配置：

Spark启动环境中添加hbase的jar包以及spark-examples的jar包。

1、下载spark-examples jar包，地址https://mvnrepository.com/artifact/org.apache.spark/spark-examples_2.11/1.6.0-typesafe-001

2、将下载的spark-examples包放在hbase的lib目录下，我这里使用的是cdh发行版的集群，hbase的lib目录为：/opt/cloudera/parcels/CDH/lib/hbase/lib

3、spark-env.sh增加配置，如下：

export SPARK_DIST_CLASSPATH=/opt/cloudera/parcels/CDH/lib/hbase/lib/*

重启spark

创建test.py，代码如下：

from pyspark.sql import SparkSession

def hbasetest():
    spark = SparkSession.builder.appName('SparkHBaseRDD').getOrCreate()
    sc=spark.sparkContext

    tablename='test'

    conf = {"hbase.mapreduce.inputtable": tablename}
    keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter"
    valueConv = "org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter"
    hbase_rdd = spark.sparkContext.newAPIHadoopRDD("org.apache.hadoop.hbase.mapreduce.TableInputFormat","org.apache.hadoop.hbase.io.ImmutableBytesWritable","org.apache.hadoop.hbase.client.Result",keyConverter=keyConv,valueConverter=valueConv,conf=conf)
    output = hbase_rdd.collect()
    for (k, v) in output:
        print(k, v)

if __name__ == '__main__':
    hbasetest()

提交代码：spark-submit --master local /tmp/hbasetest.py，输出如下：

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

落叶1210 CSDN认证博客专家 CSDN认证企业博客

码龄13年

72: 原创

5万+: 周排名

63万+: 总排名

18万+: 访问

: 等级

2232: 积分

88: 粉丝

93: 获赞

58: 评论

402: 收藏

私信

关注

热门文章

分类专栏

区块链技术 10篇
ceph 1篇
scala及spark 7篇
geotrellis 5篇
pyspark 6篇
区块链技术
C#心得 3篇
ArcGIS Engine 1篇
并行编程 3篇
区块链学习 12篇
Go语言 12篇
算法学习 10篇
数据存储 3篇
大数据 13篇
geotrellis 8篇
python 4篇
linux 3篇
scala 2篇

最新评论

pyspark实战（六）pyspark+happybase批量写入hbase操作
zhaodaola: pyspark访问hbase推荐hbase官方维护的hsc，用法可参考 https://bjzhanghao.com/p/3067
Pyspark实战（四）pyspark操作hbase
zhaodaola: pyspark访问hbase推荐hbase官方维护的hsc，用法可参考 https://bjzhanghao.com/p/3067
Docker+Flask集群部署
JokerCrying: uwsgi+flask+nginx就能满足大部分需求了，多worker多线程处理请求就可以了，如果并发太大的话，只能上集群了
六、geotrellis按时间序列存储至hbase
qq_42577928: 大佬你好，我是将数据上传到accumulo数据库中，修改了一下你的代码上传到accumulo数据库后scan了一下数据存储 [code=shell] \x00\x00\x00\x00\x00\x00\x00\x02 layerId:18: [] x\x9C\xED\xC11\x01\x00 \x0C\x03\xB0\xB2\x0B\x19H\x9Ds\xC6\x8D\x86$\x95J\xEF\xB7O\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x [/code]像这样是存储正确了嘛，而且按照我的切片大小库中的瓦片数据量远远小于理论值，求大佬回复
五、geotrellis实现栅格切片并存储至hbase
syauxdjsj: import com.yykj.chatta.initWriteBackend 我导入这个爆红了怎么搞

大家在看

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。