【Spark】自定义函数UDF和UDAF

  • 我们此篇使用的树都是User.json这个,具体如下图

{“username”: “zhangsan”,“age”: 20}
{“username”: “lisi”,“age”: 21}
{“username”: “wangwu”,“age”: 19}

自定义UDF

UDF的简介

UDF: 输入一行, 返回一个结果. 一对一关系,放入函数一个值, 就返回一个值, 而不会返回多个值 。如下面的例子就可以看出:

(x: String) => "Name=" + x

这个函数, 入参为一个, 返回也是一个, 而不会返回多个值

具体实现

object UDF {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .master("local[*]")
      .appName("UTF")
      .getOrCreate()
    val df = spark.read
      .json("data/user.json")
    df.createOrReplaceTempView("user")

    //注册udf
    spark.udf.register("prefixName", (name: String) => {
      "Name:" + name
    })

    spark.sql("select age,prefixName(username) from user").show()

    spark.close()
  }
}

结果展示
在这里插入图片描述
解释

  • UDF在使用之前,需要先注册spark.udf.register

跳转顶部


自定义UDAF

UDAF的简介

UDAF主要可以分为强类型和弱类型

  • 强弱类型的主要区别就是强类型要注意数据的类型

强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count()countDistinct()avg()max()min()。除此之外,用户可以设定自己的自定义聚合函数。通过继承 UserDefinedAggregateFunction 来实现用户自定义弱类型聚合函数。如今UserDefinedAggregateFunction已经不推荐使用了。可以统一采用强类型聚合函数Aggregator

弱类型的UDAF

自定义UDAF

  class MyAvgUDAF extends UserDefinedAggregateFunction {
    /**
     * 输入数据的结构,我们这里是求年龄的平均值,所以输入的数据是年龄
     * 由于是聚合函数,肯定时输入一个数组的数据,最后返回一个数据也就是平均值
     * 所以输入的是一个数组,数据的类别名叫age,数据的类型是longType
     */
    override def inputSchema: StructType = {
      StructType(
        Array(
          StructField("age", LongType)
        )
      )
    }

    /**
     * 缓冲区
     * 缓冲区是用来暂时存储数据,数据会在这里进行暂时的存储、运算然后才输出数据
     * 例如求平均值:数据在缓冲区进行求和和计算数量,求出平均值后输出
     *
     * @return
     */
    override def bufferSchema: StructType = {
      StructType(
        Array(
          StructField("total", LongType),
          StructField("count", LongType)
        )
      )
    }

    /**
     * 函数输出的数据类型就是是计算结果的数据类型
     *
     * @return
     */
    override def dataType: DataType = LongType

    /**
     * 函数的稳定性
     *
     * @return
     */
    override def deterministic: Boolean = true

    /**
     * 缓冲区的初始换
     *
     * @param buffer
     */
    override def initialize(buffer: MutableAggregationBuffer): Unit = {
      //这里就是如何该初始哈缓冲区的数据(也就是归零),这里有两个方法来归零
      //方法一
      //buffer(0) = 0l
      //buffer(1) = 0l

      //方法二
      buffer.update(0, 0l)
      buffer.update(1, 0l)
    }

    /**
     * 根据输入的数据来更新缓冲区的数据,也就是缓冲区的计算规则
     *
     * @param buffer
     * @param input
     */
    override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
      //第一个数据就是求和,缓冲区里的数据加上输入的数据
      buffer.update(0, buffer.getLong(0) + input.getLong(0))
      //第二个数据就是计算总数,每次加一即可
      buffer.update(1, buffer.getLong(1) + 1)
    }

    /**
     * 缓冲区的数据合并
     * 保留1
     *
     * @param buffer1
     * @param buffer2
     */
    override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
      buffer1.update(0, buffer1.getLong(0) + buffer2.getLong(0))
      buffer1.update(1, buffer1.getLong(1) + buffer2.getLong(1))
    }

    /**
     * 计算平均值
     *
     * @param buffer
     * @return
     */
    override def evaluate(buffer: Row): Any = (buffer.getLong(0) / buffer.getLong(1))
  }

主要步骤:

  • 继承UserDefinedAggregateFunction
  • 实现他的方法

方法的含义各是什么?

  • inputSchema:输入数据的结构。由于是聚合,输入数据肯定是一个数组
  • bufferSchema:缓冲区数据的结构,缓冲区就是编写计算规则的,如选哟计算平均值,那么就需要在缓冲区中计算出总数和总和
  • dataType:输出的数据结构,即输出结果的数据结构
  • deterministic:函数的稳定性,确保一致性, 一般用true
  • initialize:缓冲区的初始化即归零
  • update:根据输入的数据来更新缓冲区的数据,也就是缓冲区的计算规则
  • merge:缓冲区的合并
  • evaluate:计算平均值

注册并且使用

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .master("local[*]")
      .appName("UDAF")
      .getOrCreate()
    val df = spark.read
      .json("data/user.json")
    df.createOrReplaceTempView("user")

    //注册函数
    spark.udf.register("ageAvg",new MyAvgUDAF())

    spark.sql("select ageAvg(age) from user").show()

    spark.close()
  }

运行结果
在这里插入图片描述

跳转顶部


强类型的UDAF

自定义两个样例类

  //存储缓冲区的数据
  case class Buff(var total: Long, var count: Long)

  //存储输入数据
  case class User(var username: String, var age: Long)

自定义强类型UDAF类

  class MyAvgAgeUDAF extends Aggregator[User, Buff, Long] {
    /**
     * 初始值或者是零值
     * 缓冲区的初始化
     *
     * @return
     */
    override def zero: Buff = {
      Buff(0l, 0l)
    }

    /**
     * 根据输入的数据来更新缓冲区的数据
     *
     * @param b
     * @param a
     * @return
     */
    override def reduce(b: Buff, a: User): Buff = {
      b.total += a.age
      b.count += 1
      b
    }

    /**
     * 合并缓冲区
     *
     * @param b1
     * @param b2
     * @return
     */
    override def merge(b1: Buff, b2: Buff): Buff = {
      b1.total += b2.total
      b1.count += b2.count
      b1
    }

    /**
     * 计算结果
     *
     * @param reduction
     * @return
     */
    override def finish(reduction: Buff): Long = (reduction.total / reduction.count)

    /**
     * 这是固定的写法,若是自定义的类那么就是:product
     * 缓冲区的编码操作
     *
     * @return
     */
    override def bufferEncoder: Encoder[Buff] = Encoders.product

    /**
     * 这也是固定的写法,若是scala存在的类(如long,int,string……)就是选择对应的即可
     * 输出的编码操作
     *
     * @return
     */
    override def outputEncoder: Encoder[Long] = Encoders.scalaLong
  }

解释

  • 继承Aggregator
  • 实现方法
  • 与弱类型相比,此时这里需要定义输入、缓冲区和输出数据的泛型

方法的简绍

  • zero:缓冲区的初始化
  • reduce:根据输入的数据来更新缓冲区的数据,也就是计算总数据数和数据和
  • merge:合并缓冲区数据
  • finsh:计算结果
  • bufferEncoder和·outputEncoder:这两个分别是缓冲区和输出的编码格式,其实是由固定格式的,若再次阶段输出的数据是自定义的那么就是Encoders.product,若输出的数据是scala自带的那么就是Encoders.scalaLong后面的long根据自己输出的数据类型而定

注册并且使用

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .master("local[*]")
      .appName("UDAF")
      .getOrCreate()
    import spark.implicits._
    val df = spark.read
      .json("data/user.json")
    df.createOrReplaceTempView("user")
    val ds = df.as[User]

    //将UDAF变成查询的列对象
    val udafCol = new MyAvgAgeUDAF().toColumn
    ds.select(udafCol).show()
    spark.close()
  }

结果展示
在这里插入图片描述

跳转顶部


### 回答1: Spark中的自定义函数包括三种类型:udfudaf和udtf。 1. udf(User-Defined Function):用户自定义函数,用于对DataFrame中的每个元素进行单独的处理,返回一个新的。可以使用Scala、Java或Python编写。 2. udaf(User-Defined Aggregate Function):用户自定义聚合函数,用于对DataFrame中的一组元素进行聚合操作,返回一个新的。可以使用Scala、Java或Python编写。 3. udtf(User-Defined Table-Generating Function):用户自定义表生成函数,用于将一行数据转换为多行数据,返回一个新的DataFrame。只能使用Scala或Java编写。 这些自定义函数可以帮助我们更好地处理数据,提高Spark的处理效率和灵活性。 ### 回答2: Spark大数据处理中一款极为流行的计算框架,自带的函数库(UDF)非常有限,无法满足大规模数据处理需求,因此需要 Spark 自定义函数UDF)来弥补这一不足。自定义函数分为三种类型:UDFUDAF、UDTF。 UDF(User-Defined Function)即用户自定义函数,是一种对 RDD 或 DataFrame 数据进行处理的自定义函数。使用 UDF,可以用编写的代码扩展 Spark 的现有函数库,使其支持更为复杂的操作,提高工作效率。使用 UDF 可以通过嵌套 SQL 或是反射来创建一个函数UDF 主要通过 Spark SQL 来进行使用,对于 Python 程序员来说还有 UDF 对象模型。 UDAF(User-Defined Aggregation Function)即用户自定义聚合函数UDAF 可以更好地封装用户自定义聚合函数过程,提高代码复用率,把整个聚合过程封装到一个函数中,便于调用和维护。通常使用 UDAF 构造聚合表达式并将其应用于 Spark SQL 查询。在使用聚合操作时,用户可以指定自定义函数,一般使用聚合函数配合 Spark SQL 或是 API 来使用。 UDTF(User-Defined Table-Generating Function)即用户自定义表格生成函数,可以将一个输入行拆分成多个输出行,还可以通过 UDTF 将一个输入列转化成多个输出列。UDTF 操作有助于负责多输出格式和分割的情况下,实现强大的集合任务文件解析和行转换。与 UDFUDAF 类似,UDTF 可以在调用函数时使用 Apply 函数。UDTF 可以返回多个 Row 对象,并将其转换为新的 DataFrame。UDTF 可以将一行拆分成多行,进行数据拆分和处理的任务。 总而言之,自定义函数一个非常强大的工具,可以扩展 Spark 的能力,提高计算效率和工作效率。通过三种类型的自定义函数UDFUDAF、UDTF),Spark 可以更方便地进行数据处理和分析,使这个框架具备更灵活的应用能力。 ### 回答3: Spark是一种分布式计算框架,其生态圈非常丰富。在Spark中,我们可以使用自定义函数(User Defined Function,简称UDF)、自定义聚合函数(User Defined Aggregate Function,简称UDAF)及自定义表生成函数(User Defined Table Generating Function,简称UDTF)来满足特定的需求。 UDFSpark中最常用的自定义函数,特别适合对单个列或多个列进行简单转换的场景。UDF可以用Scala、Java或Python等语言来编写。在Scala或Java中定义UDF时,需要定义一个函数,并将它与SparkSession的udf()方法一起使用。在Python中,UDF的定义基于通用Python函数,使用Python的decorators来描述该函数的功能。 UDAF是用于聚合多个自定义函数UDAF的好处是可以以两种不同的方式来使用:作为聚合函数或开窗函数Spark提供了两种UDAF:typed aggregates和untyped aggregates。typed aggregates是一种类型安全的操作,可以通过将多个组合在一起来处理。untyped aggregates是一种无类型的操作,需要我们自己来处理所有细节。 UDTF是用于生成几个结果表的自定义函数。在使用UDTF时,我们需要定义一个新的中间表来存储结果,然后将中间表传递给Spark SQL的from()方法,以创建最终结果。 无论使用哪种自定义函数,我们都需要考虑性能因素。因为我们的数据通常分布在多个计算节点上,所以不合理的计算可能会导致结果不准确或性能下降。另外,我们还需要确保我们的自定义函数能够处理大型数据集,并且具有足够的容错能力。 总之,Spark中的自定义函数可以帮助我们实现一些常规操作以外的数据处理需求。通过UDFUDAF和UDTF,我们可以根据具体的场景设计出高效、可靠的数据处理方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值