spark如何写自定义聚合函数UDAF

spark自定义聚合函数需要继承一个抽象类UserDefinedAggregateFunction,并重写以下属性和方法1. inputSchema:函数的参数列表,不过需要写成StructType的格式,例如:override def inputSchema:StructType = StructType(Array(StructField("age",IntegerType)))...
摘要由CSDN通过智能技术生成

spark自定义聚合函数需要继承一个抽象类UserDefinedAggregateFunction,并重写以下属性和方法

1. inputSchema:函数的参数列表,不过需要写成StructType的格式,例如:

override def inputSchema:StructType = StructType(Array(StructField("age",IntegerType)))

一个参数就是一个StructField,"age"代表参数名;IntegerType是参数类型,也就是int类型,但不能写scala的Int,必须是sparksql的数据类型,具体支持哪些类型,可见org.apache.spark.sql.types包下的类,

 

2.bufferSchema:中间结果的类型,比如求和时,a、b、c相加,需要先计算a+b并保存结果ab,然后计算ab+c,这个ab就是中间结果。如果是求平均数,存储总和以及计数,总和及计数就是中间结果,例子如下和1类似,不再赘述。

override def bufferSchema:StructType = StructType(Array(StructField("count",IntegerType),
                                                      S
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值