pyspark读取hbase,并将spark-rdd转化为dataframe

pyspark连接hbase,并将spark-rdd转化为dataframe@TOC

建立spark连接,获取rdd

#-*- coding:utf-8 -*-
import  json
from pyspark.sql import SparkSession

host = '192.168.11.xxx'
#table name
table = 'I_OCS_COLLECT'
#建立spark连接
spark = SparkSession.builder.master("yarn-client").appName("test").getOrCreate()
hbaseconf = {"hbase.zookeeper.quorum": host, 
		"hbase.mapreduce.inputtable": table
		#定义起止行
             #"hbase.mapreduce.scan.row.start": row,
            # "hbase.mapreduce.scan.row.stop": row1
             }
keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter"
valueConv = "org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter"
#得到rdd
hbase_rdd = spark.sparkContext.newAPIHadoopRDD("org.apache.hadoop.hbase.mapreduce.TableInputFormat",
"org.apache.hadoop.hbase.io.ImmutableBytesWritable",
"org.apache.hadoop.hbase.client.Result", 
keyConverter=keyConv, valueConverter=valueConv, conf=hbaseconf)

数据处理

定义函数deal_missing_dec,定义不能为空的列

def deal_missing_dec(no_row_key_colnames):
    def deal_missing(x):
        result = {}
        for i in no_row_key_colnames:
            if i in x[1].keys():
                result[i]=x[1][i]
            else:
                result[i]='missing'
        return (x[0],result)
    return deal_missing

将rdd转化为dataframe

def deal_row(x):
    return [x[0]]+list(x[1].values())
    
def rdd_to_df(hbase_rdd):
    data_split = hbase_rdd.map(lambda x:(x[0],x[1].split('\n')))
    data_cols = data_split.map(lambda x:(x[0],call_transfor(x[1])))
    no_row_key_colnames = data_cols.map(lambda x:[i for i in x[1]]).take(2)[1]
    deal_missing = deal_missing_dec(no_row_key_colnames)
    no_missing = data_cols.map(deal_missing)
    data = no_missing.map(deal_row).toDF(['row_key']+no_row_key_colnames)
    return data

调用
fdc_data = rdd_to_df(hbase_rdd)
print fdc_data.show()
结果:
结果表

参考文章:
https://blog.csdn.net/hchzhao_1985/article/details/82717949
http://dblab.xmu.edu.cn/blog/1715-2/

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值