PySpark基于SHC框架读取HBase数据并转成DataFrame

最新推荐文章于 2019-12-31 17:17:09 发布

冬哥不是东哥

最新推荐文章于 2019-12-31 17:17:09 发布

阅读量773

点赞数

文章标签： Spark HBase Python SHC pySpark

本文链接：https://blog.csdn.net/u014736152/article/details/89605015

版权

一、首先需要将HBase目录lib下的jar包以及SHC的jar包复制到所有节点的Spark目录lib下

二、修改spark-defaults.conf 在spark.driver.extraClassPath和spark.executor.extraClassPath把上述jar包所在路径加进去

三、重启集群

四、代码

#/usr/bin/python
#-*- coding:utf-8 –*-

from pyspark import SparkContext
from pyspark.sql import SQLContext,HiveContext,SparkSession
from pyspark.sql.types import Row,StringType,StructField,StringType,IntegerType
from pyspark.sql.dataframe import DataFrame

sc = SparkContext(appName="pyspark_hbase")
sql_sc = SQLContext(sc)

dep = "org.apache.spark.sql.execution.datasources.hbase"
#定义schema
catalog = """{
              "table":{"namespace":"default", "name":"teacher"},
              "rowkey":"key",
              "columns":{
                       "id":{"cf":

最低0.47元/天解锁文章

冬哥不是东哥

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
PySpark基于SHC框架读取HBase数据并转成DataFrame

一、首先需要将HBase目录lib下的jar包以及SHC的jar包复制到所有节点的Spark目录lib下二、修改spark-defaults.conf 在spark.driver.extraClassPath和spark.executor.extraClassPath把上述jar包所在路径加进去三、重启集群四、代码#/usr/bin/python#-*- coding:utf-...
复制链接

扫一扫