Spark-SQL用户自定义函数|自定义UDF|自定义求平均数UDAF(弱类型、强类型)

最新推荐文章于 2022-08-10 11:31:47 发布

SmallScorpion

最新推荐文章于 2022-08-10 11:31:47 发布

阅读量724

点赞数

分类专栏： Spark模块化学习文章标签：大数据 spark

本文链接：https://blog.csdn.net/qq_40180229/article/details/105685297

版权

本文介绍了Spark SQL中的用户自定义函数(UDF)和用户自定义聚合函数(UDAF)。UDF接收一行数据并返回一个结果，而UDAF用于处理多行数据并返回单一结果。在UDAF的讨论中，分别阐述了弱类型和强类型的使用，包括如何自定义聚合函数以扩展Spark的功能。

摘要由CSDN通过智能技术生成

UDF

输入一行，返回一个结果。在Shell窗口中可以通过spark.udf功能用户可以自定义函数。

在这里插入图片描述

UDAF(弱)

输入多行,返回一行。强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数，如 count()，countDistinct()，avg()，max()，min()。除此之外，用户可以设定自己的自定义聚合函数。通过继承UserDefinedAggregateFunction来实现用户自定义聚合函数。

package com.atguigu.sparkSQL

import org.apache.spark.SparkContext
import org.apache.spark.sql.expressions.{
   MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.types.{
   DataType, DoubleType, LongType, StructField, StructType}
import org.apache.spark.sql.{
   DataFrame, Row, SparkSession}

object UDAFTest {
   
  def main(args: Array[String]): Unit = {
   
    // 1. 创建SparkSession对象
    val spark: SparkSession = SparkSession.builder()
      .master("local[*]")
      .appName("SparkSQL")
      .getOrCreate()

    val context: SparkContext = spark.sparkContext

    // 2. 导入隐式转换 : spark为创建得SparkSession对象

    // 3. 读取数据创建DF
    val df: DataFrame = spark.read.json("D:\\MyWork\\WorkSpaceIDEA\\scalaDemo\\sparksql\\src\\main\\resources\\people.json")

    // 4. 创建UDAF函数
    spark.udf.register("myAvg",new MyAvg)

    // 5. 使用UDAF函数
    df.createTempView("people")
    spark.