pyspark 使用udf遇到的问题

最新推荐文章于 2022-06-13 00:12:59 发布

cxf873260870

最新推荐文章于 2022-06-13 00:12:59 发布

阅读量2k

点赞数 2

分类专栏： Python 文章标签： python pyspark UDF

本文链接：https://blog.csdn.net/cxf873260870/article/details/102369235

版权

在使用PySpark的DataFrame处理数据时，会遇到需要用自定义函数（user defined function, udf）对某一列或几列进行运算，生成新列的情况。PySpark的udf使用方法如下。

先初始化SparkContext和SparkSession

from pyspark import SparkConf
from pyspark import SparkContext
from pyspark.sql import SparkSession

spark_conf = SparkConf().setAppName("udf_example")
spark_context = SparkContext(conf=spark_conf)
spark = SparkSession.builder.config(conf=spark_conf).enableHiveSupport().getOrCreate()

使用装饰器的方法把一个python函数注册为udf

from pyspark.sql.types import IntegerType
from pyspark.sql.functions import udf

# 使用装饰器把一个python函数注册为udf, 装饰器中的参数为返回的数据类型
@udf('int')
def slen(s):
    if s is not None:
        return len(s)

# 当装饰器不带任何参数时，默认的数据类型为str
@udf()
def to_upper(s):
    if s is not None:
        return s.upper()

# 也可以使用pyspark.sql.types作为装饰器的参数指定udf返回类型  
@udf(IntegerType(

最低0.47元/天解锁文章

cxf873260870

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pyspark 使用udf遇到的问题

在使用PySpark的DataFrame处理数据时，会遇到需要用自定义函数（user defined function, udf）对某一列或几列进行运算，生成新列的情况。PySpark的udf使用方法如下。先初始化SparkContext和SparkSessionfrom pyspark import SparkConffrom pyspark import SparkContextfro...
复制链接

扫一扫