大数据学习之路90-sparkSQL自定义聚合函数UDAF

最新推荐文章于 2022-10-18 00:16:59 发布

未来@音律

最新推荐文章于 2022-10-18 00:16:59 发布

阅读量594

点赞数

分类专栏：大数据生态圈从入门到精通

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/qq_37050372/article/details/82981177

版权

大数据生态圈从入门到精通专栏收录该内容

131 篇文章 36 订阅 ¥19.90 ¥99.00

订阅专栏

本文介绍了大数据学习中SparkSQL的自定义聚合函数UDAF（User-Defined Aggregate Function）的应用，通过一个具体的例子展示了如何创建一个计算几何平均数的UDAF，并给出了生成数据及使用该函数得到计算结果的过程。

摘要由CSDN通过智能技术生成

什么是UDAF？就是输入N行得到一个结果，属于聚合类的。

接下来我们就写一个求几何平均数的一个自定义聚合函数的例子

我们从开头写起，先来看看需要进行计算的数如何产生：

package com.test.SparkSQL

import java.lang

import org.apache.spark.sql.{Dataset, SparkSession}

object UDAFDemo {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("UDAFDemo")
      .master("local[*]")
      .getOrCreate()
    val ds: Dataset[lang.Long] = spark.range(1,10)
    ds.show()
  }
}

生成结果：

了解本专栏