CDH6.3.2版本pyspark-sql通过hive访问hbase

sunnyboy_4

于 2023-01-09 17:27:38 发布

阅读量334

点赞数

分类专栏： hadoop 文章标签： hive hbase sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012228523/article/details/128618042

版权

hadoop 专栏收录该内容

25 篇文章 1 订阅

订阅专栏

该文描述了如何将Hive和HBase的相关jar包添加到Spark环境中，然后通过Python的findspark和pyspark库初始化SparkSession，并执行SQL查询Hive中的hive_hbase_emp_table表。

摘要由CSDN通过智能技术生成

1、添加所需要包环境

cp /opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hive/lib/hive-hbase-handler-2.1.1-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/spark/jars/
cp /opt/cloudera/parcels/CDH/lib/hbase/lib/hbase-client-2.1.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/spark/jars/
cp /opt/cloudera/parcels/CDH/lib/hbase/lib/hbase-common-2.1.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/spark/jars/
cp /opt/cloudera/parcels/CDH/lib/hbase/lib/hbase-protocol-2.1.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/spark/jars/
cp /opt/cloudera/parcels/CDH/lib/hbase/lib/hbase-server-2.1.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/spark/jars/
cp /opt/cloudera/parcels/CDH/lib/hbase/lib/hbase-mapreduce-2.1.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/spark/jars/

2、测试代码

import findspark
findspark.init(spark_home='/opt/cloudera/parcels/CDH/lib/spark',python_path='/opt/cloudera/anaconda3/bin/python')
import pyspark
from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

spark = SparkSession.builder.appName('feat-eng')\
.enableHiveSupport().getOrCreate()

spark.sql('select * from hive_hbase_emp_table').show()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
CDH6.3.2版本pyspark-sql通过hive访问hbase

CDH6.3.2版本pyspark-sql通过hive访问hbase
复制链接

扫一扫

专栏目录

sunnyboy_4 CSDN认证博客专家 CSDN认证企业博客

码龄11年

60: 原创

9万+: 周排名

106万+: 总排名

7万+: 访问

: 等级

609: 积分

359: 粉丝

20: 获赞

21: 评论

101: 收藏

私信

关注

热门文章

分类专栏

flink 3篇
starrocks 1篇
hadoop 25篇
Linux 2篇
debezium 2篇
streamsets 1篇
Python机器学习 15篇
rabbitmq 2篇
loadRunner
vue
java 13篇

最新评论

编译flink1.6源码并打包成CDH6.3.2的parcel并且部署CDH6.3.2
sunnyboy_4: 你检查一下是不是权限的问题，查看报错日志。我这边遇到的一般就是 flink 用户没有写权限，还有就是 zookeeper的版本是否匹配
服务器编译spark3.3.1源码支持CDH6.3.2
Numbered_o: 有编译好的 jar 没有?
redisson实现可靠高效的延迟队列
James___666: 我是按照您的代码写的延时队列，但是出现了bug，bug就是只有在项目启动的时候才会消费队列，运行中它不消费，一直在堆积。所以想请教一下您这部分代码有遇到过这个问题么
redisson实现可靠高效的延迟队列
sunnyboy_4: 具体根据业务来做对应处理，比如时候要考虑消息的顺序性等
redisson实现可靠高效的延迟队列
sunnyboy_4: 这种需要备用方案，写一个小程序。先将消息中数据存下来或者起一个新队列转存重启之前的消息。后续在慢慢消费这个队列

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

sunnyboy_4 你的鼓励是我创作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。