通过PySpark访问Hbase并转成DataFrame

最新推荐文章于 2021-07-27 16:37:53 发布

IoT Miner

最新推荐文章于 2021-07-27 16:37:53 发布

阅读量4.4k

点赞数 1

分类专栏： Hbase 文章标签： PySpark Hbase Hive Spark Sql DataFrame

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hchzhao_1985/article/details/82717949

版权

介绍PySpark访问Hbase的两种方法，一种是通过newAPIHadoopRDD，读取Hbase为RDD，并转成DataFrame，另一种是在Hive里建立Hbase的外部表，然后通过Spark Sql读取一、通过newAPIHadoopRDD读取#spark连接hbase，读取RDD数据spark = SparkSession.builder.master("yarn-clien...

摘要由CSDN通过智能技术生成

介绍PySpark访问Hbase的两种方法，一种是通过newAPIHadoopRDD，读取Hbase为RDD，并转成DataFrame，另一种是在Hive里建立Hbase的外部表，然后通过Spark Sql读取

一、通过newAPIHadoopRDD读取

#spark连接hbase，读取RDD数据

spark = SparkSession.builder.master("yarn-client").appName("hbase_test").getOrCreate()

hbaseconf = { "hbase.zookeeper.quorum":'10.18.105.15',"hbase.mapreduce.inputtable":"table_name",

"hbase.mapreduce.scan.row.start":"***", "hbase.mapreduce.scan.row.stop":"***"}

keyConv = "org.apache.spark.examples.pythonconverter

最低0.47元/天解锁文章

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
通过PySpark访问Hbase并转成DataFrame

介绍PySpark访问Hbase的两种方法，一种是通过newAPIHadoopRDD，读取Hbase为RDD，并转成DataFrame，另一种是在Hive里建立Hbase的外部表，然后通过Spark Sql读取一、通过newAPIHadoopRDD读取#spark连接hbase，读取RDD数据spark = SparkSession.builder.master("yarn-clien...
复制链接

扫一扫

专栏目录

IoT Miner CSDN认证博客专家 CSDN认证企业博客

码龄16年

3: 原创

44万+: 周排名

155万+: 总排名

1万+: 访问

: 等级

274: 积分

4: 粉丝

5: 获赞

7: 评论

39: 收藏

私信

关注

热门文章

分类专栏

sqoop 2篇
数据科学 1篇
Hbase 1篇
物联网 1篇

最新评论

通过PySpark访问Hbase并转成DataFrame
zhaodaola: pyspark访问hbase推荐hbase官方维护的hsc，用法可参考 https://bjzhanghao.com/p/3067
sqoop定时增量抽取数据到hive
qq_16075483 回复 wusuo5459: 还有一个作用貌似是用来做动态分区的，我们公司的历史数据已经处理完了，现在用定时作业增量导入前一天的数据，中间遇到两个坑做了一下记录。[code=plain] https://itlw2819.gitee.io/blog/2020/02/27/%E4%BD%BF%E7%94%A8Sqoop%E5%B0%86MySQL%E6%95%B0%E6%8D%AE%E5%AF%BC%E5%85%A5Hive%E5%92%8CHBase%E7%88%AC%E5%9D%91/ [/code]
sqoop定时增量抽取数据到hive
wusuo5459 回复 qq_16075483: 临时表导入是因为历史表中的数据发生变化，需要合并；这里历史表中的数据认为是不变的
sqoop定时增量抽取数据到hive
qq_16075483: 请问网上有一些文章使用hive临时表再导入（https://blog.csdn.net/weixin_38655836/article/details/90602965）的方法用意是什么？我看你是直接往hive表里导入的，有什么区别吗？
通过PySpark访问Hbase并转成DataFrame
落叶1210: 不知道博主是否测试过效率问题？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。