SparkSQL自定义强类型聚合函数

最新推荐文章于 2022-07-17 18:06:35 发布

ChanKamShing

最新推荐文章于 2022-07-17 18:06:35 发布

阅读量209

点赞数 1

分类专栏：大数据集群 Spark Scala 大数据

本文链接：https://blog.csdn.net/weixin_39400271/article/details/98890387

版权

自定义强类型聚合函数跟自定义无类型聚合函数的操作类似，相对的，实现自定义强类型聚合函数则要继承org.apache.spark.sql.expressions.Aggregator。强类型的优点在于：其内部与特定数据集紧密结合，增强了紧密型、安全性，但由于其紧凑的特性，降低了适用性。

准备employ.txt文件：

Michael,3000
Andy,4500
Justin,3500
Betral,4000

一、定义自定义强类型聚合函数

package com.cjs

import org.apache.spark.sql.{Encoder, Encoders}
import org.apache.spark.sql.expressions.Aggregator

//定义输入数据类型
case class Employee(name:String, salary:Long)
//定义聚合缓冲器类型
case class Average(var sum:Long, var count:Long)

//继承Aggregator类时需要指定泛型类型，依次为：传入聚合缓冲器的数据类型、聚合缓冲器的类型、返回结果的类型
object MyAggregator extends Aggregator[Employee, Average, Double]{
    //类似于初始化聚合缓冲器
    override def zero: Average = Average(0L,0L)

    //根据传入的参数进行运算操作，最后更新buffer缓冲器，并返回
    override def reduce(buffer: Average, a: Employee): Average = {
        buffer.sum += a.salary
        buffer.count +

最低0.47元/天解锁文章

ChanKamShing

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkSQL自定义强类型聚合函数

自定义强类型聚合函数跟自定义无类型聚合函数的操作类似，相对的，实现自定义强类型聚合函数则要继承org.apache.spark.sql.expressions.Aggregator。强类型的优点在于：其内部与特定数据集紧密结合，增强了紧密型、安全性，但由于其紧凑的特性，降低了适用性。准备employ.txt文件：Michael,3000Andy,4500Justin,...
复制链接

扫一扫