spark如何写自定义聚合函数UDAF

最新推荐文章于 2023-12-21 17:35:24 发布

蹩脚法师

最新推荐文章于 2023-12-21 17:35:24 发布

阅读量2.9k

点赞数 1

分类专栏： spark 文章标签： spark udaf sparksql

本文链接：https://blog.csdn.net/piduzi/article/details/82558803

版权

本文详细介绍了在Spark中如何创建自定义聚合函数UDAF，包括重写inputSchema、bufferSchema、dataType、deterministic、initialize、update、merge和evaluate等关键方法。以求平均数为例，展示了UDAF的实现过程，并提供了使用示例和输出结果。

摘要由CSDN通过智能技术生成

spark自定义聚合函数需要继承一个抽象类UserDefinedAggregateFunction，并重写以下属性和方法

1. inputSchema：函数的参数列表，不过需要写成StructType的格式，例如：

override def inputSchema:StructType = StructType(Array(StructField("age",IntegerType)))

一个参数就是一个StructField，"age"代表参数名；IntegerType是参数类型，也就是int类型，但不能写scala的Int，必须是sparksql的数据类型，具体支持哪些类型，可见org.apache.spark.sql.types包下的类，

2.bufferSchema：中间结果的类型，比如求和时，a、b、c相加，需要先计算a+b并保存结果ab,然后计算ab+c，这个ab就是中间结果。如果是求平均数，存储总和以及计数，总和及计数就是中间结果，例子如下和1类似，不再赘述。

override def bufferSchema:StructType = StructType(Array(StructField("count",IntegerType),
                                                      S

最低0.47元/天解锁文章

蹩脚法师

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录