Spark编写UDAF自定义函数

最新推荐文章于 2025-10-27 14:21:43 发布

原创

最新推荐文章于 2025-10-27 14:21:43 发布 · 1.3w 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#spark #函数 #UDAF

Hive中有UDF与UDAF，Spark中对UDF支持较早，UDAF：User Defined Aggregate Function。用户自定义聚合函数，是直到Spark 1.5.x才引入的最新特性。

UDAF，则可以针对多行输入，进行聚合计算。

编写一个实现平均数的UDAF

1、自定义UDAF，需要extends org.apache.spark.sql.expressions.UserDefinedAggregateFunction，并实现接口中的8个方法

package com.spark.sql

import org.apache.spark.sql.types.LongType
import org.apache.spark.sql.types.DoubleType
import org.apache.spark.sql.expressions.UserDefinedAggregateFunction
import org.apache.spark.sql.expressions.MutableAggregationBuffer
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.DataType
import org.apache.spark.sql.types.StructField

/**
 * @author Administrator
 */
class NumsAvg extends UserDefinedAggregateFunction {
  def inputSchema: org.apache.spark.sql.types.StructType =
    StructType(StructField("nums", DoubleType) :: Nil)

  def bufferSchema: StructType = StructType(
    St