Spark SQL的两种用户自定义聚合函数(UDAF)

最新推荐文章于 2021-11-18 16:39:49 发布

大数据技术与数仓

最新推荐文章于 2021-11-18 16:39:49 发布

阅读量1.9k

点赞数

分类专栏： Spark 文章标签： Spark SQL UDAF

本文链接：https://blog.csdn.net/jmx_bigdata/article/details/83617468

版权

一、概述DataFrames的内置函数提供了常见的聚合函数，比如count(), countDistinct(), avg(), max(), min()等，但是这些函数是为DataFrames而设计的，Spark SQL也有适用于强类型的Datasets的类型安全的函数。此外，用户也可以自定义聚合函数。自定义聚合函数有两种类型，一种是无类型的自定义聚合函数(适用于DataFrame)，另一种...

摘要由CSDN通过智能技术生成

一、概述

DataFrames的内置函数提供了常见的聚合函数，比如count(), countDistinct(), avg(), max(), min()等，但是这些函数是为DataFrames而设计的，Spark SQL也有适用于强类型的Datasets的类型安全的函数。此外，用户也可以自定义聚合函数。自定义聚合函数有两种类型，一种是无类型的自定义聚合函数(适用于DataFrame)，另一种是安全类型的自定义聚合函数(适用于DataSet)。

二、两种UDAF的方式

1.无类型的用户UDAF

继承UserDefinedAggregateFunction抽象类，实现无类型的自定义聚集函数

package com.company.sparksql

import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.types._

object UserDefinedUntypedAggregation {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .appName("UserDefinedUntypedAggregation")
      .master("local")
      .getOrCreate()
    Logger.getLogger("org.apache.spark").setLevel(Level.OFF)
    Logger.getLogger("org.apache.hadoop").setLevel(Level.OFF)

    // 注册函数
    spark.udf.register("myAverage", MyAverage)
    val df = spark.read.json("file:///E:/employees.json")
    df.createOrReplaceTempView("employees")
    df.show()

    /

最低0.47元/天解锁文章

大数据技术与数仓

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL的两种用户自定义聚合函数(UDAF)

一、概述DataFrames的内置函数提供了常见的聚合函数，比如count(), countDistinct(), avg(), max(), min()等，但是这些函数是为DataFrames而设计的，Spark SQL也有适用于强类型的Datasets的类型安全的函数。此外，用户也可以自定义聚合函数。自定义聚合函数有两种类型，一种是无类型的自定义聚合函数(适用于DataFrame)，另一种...
复制链接

扫一扫