pyspark udf udaf 参数传递

1.定义udf
基于F.lit(data) 实现传参
F.lit 函数实际上是新增一例,可以理解是自定义的函数把参数当列一样来操作

from pyspark.sql import SparkSession,functions as F
from pyspark.sql.types import *
from pyspark.sql import Window

def filter(col,filters=["haha","hehe"])
    col_map={}
    try:
   	    for event_cnt in col:
   	         event,cnt=col.split(",")
   	        if event in filters:
   	            col_map[event]=int[cnt]         
        return col_map
    except:
        return None

udf_filter=F.udf(filter,MapType(StringType(),IntergerType())

collect_df=df.groupby("user","docId").agg({"envCnt":"collect_list"}).withColumnRenamed("collect_list(envCnt)","eventCnt")
collect_df.select("userId","docId",udf_filter("eventCnt",F.lit(filters=["haha","hh","hehe"]).alias("actionCnt"))

   

2.udaf实现

在数据量小的情况下 可以先分组 基于collect_list聚合成列,在自定义合并函数来满足需求

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值