pyspark udf udaf 参数传递

最新推荐文章于 2024-07-22 07:15:00 发布

bigdataf

最新推荐文章于 2024-07-22 07:15:00 发布

阅读量775

点赞数

分类专栏： spark 文章标签： spark pySpark

本文链接：https://blog.csdn.net/bigdataf/article/details/112903699

版权

spark 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.定义udf
基于F.lit(data) 实现传参
F.lit 函数实际上是新增一例,可以理解是自定义的函数把参数当列一样来操作

from pyspark.sql import SparkSession,functions as F
from pyspark.sql.types import *
from pyspark.sql import Window

def filter(col,filters=["haha","hehe"])
    col_map={}
    try:
   	    for event_cnt in col:
   	         event,cnt=col.split(",")
   	        if event in filters:
   	            col_map[event]=int[cnt]         
        return col_map
    except:
        return None

udf_filter=F.udf(filter,MapType(StringType(),IntergerType())

collect_df=df.groupby("user","docId").agg({"envCnt":"collect_list"}).withColumnRenamed("collect_list(envCnt)","eventCnt")
collect_df.select("userId","docId",udf_filter("eventCnt",F.lit(filters=["haha","hh","hehe"]).alias("actionCnt"))