spark如何写自定义聚合函数UDAF

本文详细介绍了在Spark中如何创建自定义聚合函数UDAF,包括重写inputSchema、bufferSchema、dataType、deterministic、initialize、update、merge和evaluate等关键方法。以求平均数为例,展示了UDAF的实现过程,并提供了使用示例和输出结果。
摘要由CSDN通过智能技术生成

spark自定义聚合函数需要继承一个抽象类UserDefinedAggregateFunction,并重写以下属性和方法

1. inputSchema:函数的参数列表,不过需要写成StructType的格式,例如:

override def inputSchema:StructType = StructType(Array(StructField("age",IntegerType)))

一个参数就是一个StructField,"age"代表参数名;IntegerType是参数类型,也就是int类型,但不能写scala的Int,必须是sparksql的数据类型,具体支持哪些类型,可见org.apache.spark.sql.types包下的类,

 

2.bufferSchema:中间结果的类型,比如求和时,a、b、c相加,需要先计算a+b并保存结果ab,然后计算ab+c,这个ab就是中间结果。如果是求平均数,存储总和以及计数,总和及计数就是中间结果,例子如下和1类似,不再赘述。

override def bufferSchema:StructType = StructType(Array(StructField("count",IntegerType),
                                                      S
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值