《Spark 先知先觉》用户自定义的聚合操作UDAF

用户定义的聚合函数(UDAF) 是用户根据自定义公式或业务逻辑定义自己的聚合函数的一种方法。可以使用UDAF来计算输入数据组(于单行相对)的自定义计算。Spark 维护单个AggregationBuffer,它用于存储每组输入数据的中间结果。

若要创建UDAF,必须继承UserDefinedAggregateFunction基类并实现以下方法:
1:inputSchema:用于指定输入参数,输入参数类型为StructType
2:bufferSchema:用于指定UDAF中间结果,中间结果类型为StructType
3:dataType:用于指定返回结果,返回结果的类型为DataType
4:dateministic:是一个布尔值,它指定此UDAF对于某个输入是否会返回相同的结果。
5:initialize:初始化聚合缓冲区的初始值。
6:update:描述应如何根据给定行更行内部缓冲区
7:merge:描述应如何合并两个聚合缓冲区
8:evaluate:将生成聚合最终结果

下面的例子实现了一个BoolAnd ,它将返回(给定列)所有的行是否为true,如果不是,则返回false

import org.apache.spark.sql.expressions.MutableAggregationBuffer
import org.apache.spark.sql.expressions.UserDefinedAggregateFunction
import org.apache.spark.sql.Row
import org.apache.spark.sql.types._
class BoolAnd extends UserDefinedAggregateFunction {
  def inputSchema: org.apache.spark.sql.types.StructType =
    StructType(StructField("value", BooleanType) :: Nil)
  def bufferSchema: StructType = StructType(
    StructField("result", BooleanType) :: Nil
  )
  def dataType: DataType = BooleanType
  def deterministic: Boolean = true
  def initialize(buffer: MutableAggregationBuffer): Unit = {
    buffer(0) = true
  }
  def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    buffer(0) = buffer.getAs[Boolean](0) && input.getAs[Boolean](0)
  }
  def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    buffer1(0) = buffer1.getAs[Boolean](0) && buffer2.getAs[Boolean](0)
  }
  def evaluate(buffer: Row): Any = {
    buffer(0)
  }
}

现在,实例化我们的类,也可以将其注册为一个函数

 val ba = new BoolAnd
    spark.udf.register("booland", ba)
    import org.apache.spark.sql.functions._
    spark.range(1)
      .selectExpr("explode(array(TRUE, TRUE, TRUE)) as t")
      .selectExpr("explode(array(TRUE, FALSE, TRUE)) as f", "t")
      .select(ba(col("t")), expr("booland(f)"))
      .show()

结果:
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值