Spark自定义函数 UDF UDAF

本文介绍了Spark SQL中的两种自定义函数:UDF(用户自定义函数)和UDAF(用户自定义聚合函数)。UDF是一对一的形式,对每条输入记录产生一条输出记录;而UDAF则是多对一的形式,处理多条输入记录后返回一条输出记录,如模拟max操作。通过实例演示了UDF的创建和注册过程。
摘要由CSDN通过智能技术生成

Spark 自定义函数UDF UDAF

步骤:自定义函数,再注册
用户自定义函数在sparksql中可以分为两类,
– udf :用户自定义函数, 通常指的是一对一形式,进入一条记录,出来一条记录
– udaf 用户自定义聚合函数, 通常指的是多对一形式,进入多条记录,出来一条记录,比如模拟max
案例演示
UDF

package com.qf.sql.day03

import org.apache.spark.sql.{DataFrame, SparkSession}

object _05TestUDF1 {
    def main(args: Array[String]): Unit = {
        val spark = SparkSession.builder().master("local[*]").appName("udf").getOrCreate()
        import spark.implicits._

        val df: DataFrame = spark.read.json("sql/emp.json")
        df.createTempView("emp")

        //spark.sql("select empno,ename,job,sal,deptno from emp ").show
        //使用内置函数,查询姓名长度大于4的员工信息
        //spark.sql("select empno,ename,job,sal,deptno from emp where length(ename)>4").show

        //定义一个方法
        def func1(word:String)={
            word.length
        }
        //注册函数,   func1 _  将方法转成函数
        //spark.udf.register("mylength", func1 _)
        //匿名函数的写法
        spark.udf.register("mylength",{word:String=>word.length})

        spark.sql("select empno,ename,mylength(ename) as lg,job,sal,deptno from emp where mylength(ename)>
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值