Spark的UDF、UDAF、UDTF函数

最新推荐文章于 2024-04-01 09:25:04 发布

catydidd

最新推荐文章于 2024-04-01 09:25:04 发布

阅读量828

点赞数

文章标签： spark 大数据 big data

原文链接：https://www.cnblogs.com/chenshaowei/p/13914808.html

版权

用户自定义函数

UDF函数

在操作关系型数据库时，Spark支持大部分常用SQL函数，而有些函数Spark官方并没有支持，需要根据业务自行创建。这些函数成为用户自定义函数(user defined function, UDF)。

接受一个参数，返回一个结果。即一进一出的函数。

实例

实现一个UDF，将name列中的用户名称全部转换为大写字母。

spark.udf.register("toUpperCaseUDF", (column : String) => column.toUpperCase)
spark.sql("SELECT toUpperCaseUDF(name), age FROM t_user").show

UDAF函数

用户自定义聚合函数(user defined aggregation function, UDAF)，该类型函数可以接受并处理多个参数（某一列多个行中的值），之后返回一个值，属于多进一出的函数。

开发者可以通过继承UserDefinedAggregateFunction抽象类来实现UDAF。继承该类需要覆写8个抽象方法。

object AverageUDAF extends UserDefindAggregationFunction {}

def inputSchema : StructType
def bufferSchema : StructType
def dataType : DataType
def deterministic : Boolean
def initialize(buffer : MutableAggregationBuffer) : Unit
def update(buffer : MutableAggregationBuffer, input : Row) : Unit
def merge(buffer1 : MutableAggregationBuffer, buffer2 : Row) : Unit
def evaluate(buffer : Row) : Any

在聚合过程中，用于存放累加数据的容器是MutableAggregationBuffer类型的实例，该类型继承自Row类型。整个聚合过程就是将原始表的某一列的多个Row实例取出，将对应列中所有待聚合的值累加到缓冲区的Row实例中。

实例

求每个性别的平均年龄

//inputSchema来指定调用avgUDAF函数时传入的参数类型
override def inputSchema: StructType = {
    StructType(
        List(
        StructField("numInput", DoubleType, nullable = true)
        )
    )
}

//bufferSchema设置UDAF在聚合过程中的缓冲区保存数据的类型，一个参数是年龄总和，一个参数是累加人数
override def bufferSchema: StructType = {
    StructType(
        List(
        StructField("buffer1", DoubleType, nullable = true)
        StructField("buffer2", LongType, nullable = true)
        )
    )
}

//dataType设置UDAF运算结束时返回的数据类型
override def dataType: DataType = DoubleType

//deterministic判断UDAF可接收的参数类型与返回的结果类型是否一致
override def deteministic: Boolean = true

//initialize初始化
override def initialize(buffer: MutableAggregationBuffer): Unit = {
    buffer(0) = 0.0
    buffer(1) = 0L
}

//update用于控制具体的聚合逻辑，通过update方法，将每行参与运算的列累加到聚合缓冲区的Row实例中
//每访问一行，都会调用一次update方法。
override def update(buffer: MutableAggregation, input: Row): Unit = {
    buffer.update(0, buffer.getDouble(0) + input.getDouble(0))
    buffer.update(1, buffer.getLong(1) + 1)
}

//merge用于合并每个分区聚合缓冲区的值
override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    buffer1.update(0, buffer1.getDouble(0) + buffer2.getDouble(0))
    buffer1.update(1, buffer1.getLong(1) + buffer2.getLong(1))
}

//evaluate方法用于对聚合缓冲区的数据进行最后一次运算
override def evaluate(buffer: Row): Any = {
    buffer.getDouble(0) / buffer.getLong(1)
}

在创建完AverageUDAF类后，要注册UDAF

spark.udf.register("toDouble", (column: Any) => column.toString.toDouble)
spark.udf.register("avgUDAF", AverageUDAF)
spark.sql("SELECT sex, avgUDAF(toDOUble(age)) as avgAge FROM t_user GROUP BY sex").show

UDTF函数

用户自定义表生成函数。该类型函数可以将一行中的某一列数据展开，变为基于这一列展开后的多行数据。可以通过DataFrame执行flatMap函数来实现“列转行”。一进多出。

实例

val tableArray = df1.flatMap(row => {
    val listTuple = new scala.collection.mutable.ListBuffer[(String, String)] ()
    val categoryArray = row.getString(1).split(",")
    for(c <- categoryArray) {
        listTuple.append((row.getString(0), c))
    }
    listTuple
}).collect()
val df2 = spark.createDataFrame(tableArray).toDF("movie", "category")
df.show