pyspark_自定义udf_解析json列【附代码】
一、背景:
车联网数据有很多车的时序数据,现有一套云端算法需要对每一辆车历史数据进行计算得到结果,每日将全部车算一遍存到hive数仓中
二、调研方案:
1、python脚本运行,利用pyhive拉取数据到pandas进行处理,将结果to_parquet后用hdfs_client存到数仓中
问题:数据量上亿,对内存要求极大,无法直接拉取到python脚本所在的服务器内存中运算
2、将算法内容改写成SQL或者SPARKSQL,每日调度
问题:代码改写SQL要重新梳理代码逻辑,且很多函数SQL实现复杂,有些函数不支持
三、利用Pyspark + udf自定义函数实现大数据并行计算
整体流程
1、pyspark-spark sql拉取数据到spark df
2、spark df 按 车辆唯一标识分组,执行udf自定义函数(算法),每一个分组的返回值是String类型的json字符串,执行完成后返回的是result_df, spark_df【索引(车辆唯一标识)、数据(String类型的json字符串)】
3、解析json并拼接成spark_df
4、spark_df生成临时表,将临时表数据写入hive数仓
案例代码运行结果:
案例代码:
代码地址:
https://github.com/SeafyLiang/Python_study/blob/master/pyspark_demo/pyspark_udf_json.py
代码
from pyspark.sql import SparkSession # SparkConf、SparkContext 和 SQLContext 都已经被封装在 SparkSession
from pyspark.sql import functions as F
import pandas as pd
from pyspark.sql import types as T # spark df的数据类型
from pyspark.sql.functions import array, from_json, col, explode
import sys
def get_auc(id, date, vol):
temp_df = pd.DataFrame({
'id': id,
'date': date,
'vol': vol
})
temp_df['date'] = temp_df['date'].apply(lambda x: x + 'aaa')
temp_df_json = temp_df.to_json(orient='records') # orient='records'是关键,可以把json转成array<json>