pyspark_自定义udf_解析json列【附代码】

一、背景:

车联网数据有很多车的时序数据,现有一套云端算法需要对每一辆车历史数据进行计算得到结果,每日将全部车算一遍存到hive数仓中

二、调研方案:

1、python脚本运行,利用pyhive拉取数据到pandas进行处理,将结果to_parquet后用hdfs_client存到数仓中
问题:数据量上亿,对内存要求极大,无法直接拉取到python脚本所在的服务器内存中运算
2、将算法内容改写成SQL或者SPARKSQL,每日调度
问题:代码改写SQL要重新梳理代码逻辑,且很多函数SQL实现复杂,有些函数不支持

三、利用Pyspark + udf自定义函数实现大数据并行计算

整体流程

1、pyspark-spark sql拉取数据到spark df
2、spark df 按 车辆唯一标识分组,执行udf自定义函数(算法),每一个分组的返回值是String类型的json字符串,执行完成后返回的是result_df, spark_df【索引(车辆唯一标识)、数据(String类型的json字符串)】
3、解析json并拼接成spark_df
4、spark_df生成临时表,将临时表数据写入hive数仓

案例代码运行结果:

案例代码运行结果

案例代码:

代码地址:

https://github.com/SeafyLiang/Python_study/blob/master/pyspark_demo/pyspark_udf_json.py

代码

from pyspark.sql import SparkSession  # SparkConf、SparkContext 和 SQLContext 都已经被封装在 SparkSession
from pyspark.sql import functions as F
import pandas as pd
from pyspark.sql import types as T  # spark df的数据类型
from pyspark.sql.functions import array, from_json, col, explode
import sys


def get_auc(id, date, vol):
    temp_df = pd.DataFrame({
   
        'id': id,
        'date': date,
        'vol': vol
    })
    temp_df['date'] = temp_df['date'].apply(lambda x: x + 'aaa')
    temp_df_json = temp_df.to_json(orient='records')  # orient='records'是关键,可以把json转成array<json>
    
### UDF 函数类型概述 在处理大规模数据集时,用户自定义函数(User Defined Functions, UDFs)提供了强大的灵活性。这些函数允许开发者扩展SQL的功能来满足特定需求。对于不同的平台如Hive、Spark SQL以及Hive on Spark,UDF的实现方式有所不同。 #### Hive中的UDF分类 1. **标准UDF** - 这是最常见的形式,在Java中通过继承`org.apache.hadoop.hive.ql.exec.UDF`类并重写evaluate方法来创建[^3]。 2. **GenericUDF** - 提供更广泛的输入参数支持,适用于复杂的数据结构操作。它实现了`GenericUDF`接口而不是简单的继承`UDF`类。 3. **UDAF (User Defined Aggregation Function)** - 用于聚合运算,比如求平均数、总和等。这类函数需要实现`GenericUDAFEvaluator`接口。 4. **UDTF (User Defined Table Generating Function)** - 可以将一行记录转换成多行输出,常用来解析JSON字符串或其他复合型字段。 ```sql -- 创建一个简单的Hive UDF例子 CREATE FUNCTION my_upper AS 'com.example.MyUpperFunction'; SELECT my_upper(column_name) FROM table; ``` #### Spark SQL 中的 UDF 类型 - 对于Spark SQL而言,除了可以兼容Hive风格的传统UDFs外,还可以利用Scala或Python编写更加简洁高效的版本[^1]。 - 使用 `spark.udf.register()` 方法可以直接注册新的UDF而无需提前编译JAR文件[^2]: ```scala // Scala版UDF示例 val addSuffix = udf((str: String, suffix: String) => str + "-" + suffix) spark.sql("SELECT id, add_suffix(name,'class') FROM positions.test") ``` ```python # Python 版本 from pyspark.sql.functions import udf add_suffix_py = udf(lambda s, suf: f"{s}-{suf}") spark_df.select(add_suffix_py(col("name"), lit("class")).alias('new_col')).show() ``` #### Hive on Spark 下的 UDF 支持 当采用Hive on Spark模式执行查询时,所有的Hive UDF都能正常工作,并且性能通常会有所提升因为底层采用了优化后的引擎。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值