pyspark_自定义udf_解析json列【附代码】

最新推荐文章于 2023-12-20 10:41:30 发布

SeafyLiang

最新推荐文章于 2023-12-20 10:41:30 发布

阅读量731

点赞数

分类专栏：大数据数据挖掘 Python自学文章标签：大数据 python 数据挖掘

本文链接：https://blog.csdn.net/SeafyLiang/article/details/132060369

版权

pyspark_自定义udf_解析json列【附代码】

一、背景：

车联网数据有很多车的时序数据，现有一套云端算法需要对每一辆车历史数据进行计算得到结果，每日将全部车算一遍存到hive数仓中

二、调研方案：

1、python脚本运行，利用pyhive拉取数据到pandas进行处理，将结果to_parquet后用hdfs_client存到数仓中
问题：数据量上亿，对内存要求极大，无法直接拉取到python脚本所在的服务器内存中运算
2、将算法内容改写成SQL或者SPARKSQL，每日调度
问题：代码改写SQL要重新梳理代码逻辑，且很多函数SQL实现复杂，有些函数不支持

三、利用Pyspark + udf自定义函数实现大数据并行计算

整体流程

1、pyspark-spark sql拉取数据到spark df
2、spark df 按车辆唯一标识分组，执行udf自定义函数（算法），每一个分组的返回值是String类型的json字符串，执行完成后返回的是result_df， spark_df【索引（车辆唯一标识）、数据（String类型的json字符串）】
3、解析json并拼接成spark_df
4、spark_df生成临时表，将临时表数据写入hive数仓

案例代码运行结果：

案例代码运行结果

案例代码：

代码地址：

https://github.com/SeafyLiang/Python_study/blob/master/pyspark_demo/pyspark_udf_json.py

代码

from pyspark.sql import SparkSession  # SparkConf、SparkContext 和 SQLContext 都已经被封装在 SparkSession
from pyspark.sql import functions as F
import pandas as pd
from pyspark.sql import types as T  # spark df的数据类型
from pyspark.sql.functions import array, from_json, col, explode
import sys


def get_auc(id, date, vol):
    temp_df = pd.DataFrame({
   
        'id': id,
        'date': date,
        'vol': vol
    })
    temp_df['date'] = temp_df['date'].apply(lambda x: x + 'aaa')
    temp_df_json = temp_df.to_json(orient='records')  # orient='records'是关键，可以把json转成array<json>

最低0.47元/天解锁文章