第72课:Spark SQL UDF和UDAF解密与实战

33 篇文章 0 订阅

内容:

    1.SparkSQL UDF
    2.SparkSQL UDAF

一、SparkSQL UDF和SparkSQL UDAF

    1.解决SparkSQL内置函数不足问题,自定义内置函数,
    2.UDF:User Define Function,用户自定义的函数,函数的输入是一个具体的数据记录,实现上讲就是简单的scala代码
    3.UDAF:User Define Aggregation Function,用户自定义的聚合函数,函数本身作用于数据集合,能够在聚合操作的基础上自定义操作
    4.实质上讲,例如说UDF会被sparkSQL中的Catalyst分装成为Expression,最终会通过eval方法来计算输入的数据Row(此处的Row和dataframe中的Row没有任何关系)
    5.通过SQLContext注册UDF,在scala2.10.x版本UDF函数最多可以接受22个输入参数

二、SparkSQL UDF和SparkSQL UDAF实战
 

package SparkSQL

import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.{Row, SQLContext}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.types._

/**
  * FileName: SparkSQLUDFAndUDAF
  * Author:   hadoop
  * Email:    3165845957@qq.com
  * Date:     18-11-10 上午10:46
  * Description:
  *通过案例实战SparkSQL下的UDF和UDAF的具体使用
  * UDF:User Define Function,用户自定义的函数,函数的输入是一个具体的数据记录,实现上讲就是简单的scala代码
  * UDAF:User Define Aggregation Function,用户自定义的聚合函数,函数本身作用于数据集合,能够在聚合操作的基础上自定义操作
  * 实质上讲,例如说UDF会被sparkSQL中的Catalyst分装成为Expression,最终会通过eval方法来计算输入的数据Row(此处的Row和dataframe中的Row没有任何关系)
  */
object SparkSQLUDFAndUDAF {
  def main(args: Array[String]): Unit = {
    //创建SparkConf用于读取系统信息并设置运用程序的名称
    val conf = new SparkConf().setAppName("SparkSQLUDFAndUDAF").setMaster("local")
    //创建JavaSparkContext对象实例作为整个Driver的核心基石
    val sc = new SparkContext(conf)
    //方便查看输出的日志信息,也可以设置为WARN、ERROR
    sc.setLogLevel("ERROR")
    //创建SQLContext上下文对象,用于SqL的分析
    val sqlContext = new SQLContext(sc)
    //模拟数据
    val bigData = Array(
      "Spark","Spark","Hadoop", "Spark","Spark","Hadoop"
    )
    /**
      * 创建提供的数据常见DAtaframe
      */
    val bigDataRDD = sc.parallelize(bigData)
    val bigDataRDDRow = bigDataRDD.map((item=>Row(item)))
    val structType = StructType(Array(
      StructField("word",StringType,true)
    ))
    val bigDataDS = sqlContext.createDataFrame(bigDataRDDRow,structType)
    bigDataDS.registerTempTable("bigDataTable")

    /**
      * 通过SQLContext注册UDF,在scala2.10.x版本UDF函数最多可以接受22个输入参数
      */
    sqlContext.udf.register("computeLength",(input:String)=>input.length)
    //直接在SQL语句中使用UDF,就像使用SQL自带的内部函数一样
    sqlContext.sql("select word,computeLength(word) as length from bigDataTable").show()

    sqlContext.udf.register("wordcount",new MyUDAF)
    sqlContext.sql("select word,wordcount(word) as count,computeLength(word) as length from bigDataTable group by word").show()

    while (true){

    }
  }


}

/**
  * 按照模板实现UDAF
  */

class  MyUDAF extends UserDefinedAggregateFunction{
  /**
    * 该方法指定具体输入数据的类型,在这里指定的数据列名和输入的列名没有关系
    * @return
    */
  override def inputSchema: StructType = StructType(Array(StructField("input",StringType,true)))

  /**
    * 在进行聚合操作的时候所要处理的数据的结果的类型
    * @return
    */
  override def bufferSchema: StructType = StructType(Array(StructField("count",IntegerType,true)))

  /**
    * 指定UDAF函数计算后返回的结果类型
    * @return
    */
  override def dataType: DataType = IntegerType

  /**
    *指定数据一致性
    * @return
    */
  override def deterministic: Boolean = true

  /**
    * 在aggregate之前每组数据的初始化结果
    * @param buffer
    */
  override def initialize (buffer: MutableAggregationBuffer): Unit = (buffer(0) = 0)

  /**
    * 在进行聚合的时候,每当性的值进来,对分组的聚合如何进行计算
    * 本地的聚合操作,相当于Hadoop MapReduce模型这的Combiner
    * @param buffer
    * @param input
    */
  override def update (buffer: MutableAggregationBuffer, input: Row): Unit = {
    buffer(0) = buffer.getAs[Int](0)+1
  }

  /**
    * 在分布式节点进行local Reduce完成后需要进行全局级别的Merge操作
    * @param buffer1
    * @param buffer2
    */
  override def merge (buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    buffer1(0) = buffer1.getAs[Int](0)+buffer2.getAs[Int](0)
  }

  /**
    * 返回UDAF最后的计算结果
    * @param buffer
    * @return
    */

  override def evaluate (buffer: Row): Any = buffer.getAs[Int](0)
}

运行结果:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark SQL中的自定义函数(UDFUDAF、UDTF)是用户自己定义的函数,可以用于对数据进行处理和转换。下面是一些自定义函数的实例: 1. UDF(User-Defined Function):用户自定义函数,可以将一个或多个输入参数转换为输出值。例如,我们可以定义一个UDF来计算两个数的和: ``` import org.apache.spark.sql.functions.udf val sumUDF = udf((a: Int, b: Int) => a + b) val df = Seq((1, 2), (3, 4)).toDF("a", "b") df.select(sumUDF($"a", $"b")).show() ``` 2. UDAF(User-Defined Aggregate Function):用户自定义聚合函数,可以对一组数据进行聚合操作,例如求和、平均值等。例如,我们可以定义一个UDAF来计算一组数的平均值: ``` import org.apache.spark.sql.expressions.MutableAggregationBuffer import org.apache.spark.sql.expressions.UserDefinedAggregateFunction import org.apache.spark.sql.types._ class AvgUDAF extends UserDefinedAggregateFunction { // 输入数据类型 def inputSchema: StructType = StructType(StructField("value", DoubleType) :: Nil) // 聚合缓冲区数据类型 def bufferSchema: StructType = StructType( StructField("sum", DoubleType) :: StructField("count", LongType) :: Nil ) // 输出数据类型 def dataType: DataType = DoubleType // 是否是确定性的 def deterministic: Boolean = true // 初始化聚合缓冲区 def initialize(buffer: MutableAggregationBuffer): Unit = { buffer(0) = 0.0 buffer(1) = 0L } // 更新聚合缓冲区 def update(buffer: MutableAggregationBuffer, input: Row): Unit = { buffer(0) = buffer.getDouble(0) + input.getDouble(0) buffer(1) = buffer.getLong(1) + 1L } // 合并聚合缓冲区 def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = { buffer1(0) = buffer1.getDouble(0) + buffer2.getDouble(0) buffer1(1) = buffer1.getLong(1) + buffer2.getLong(1) } // 计算最终结果 def evaluate(buffer: Row): Any = { buffer.getDouble(0) / buffer.getLong(1) } } val avgUDAF = new AvgUDAF() val df = Seq(1.0, 2.0, 3.0, 4.0).toDF("value") df.agg(avgUDAF($"value")).show() ``` 3. UDTF(User-Defined Table-Generating Function):用户自定义表生成函数,可以将一个或多个输入参数转换为一个表。例如,我们可以定义一个UDTF来将一个字符串拆分成多个单词: ``` import org.apache.spark.sql.Row import org.apache.spark.sql.expressions.UserDefinedFunction import org.apache.spark.sql.functions.{explode, udf} import org.apache.spark.sql.types._ class SplitUDTF extends UserDefinedFunction { // 输入数据类型 def inputSchema: StructType = StructType(StructField("value", StringType) :: Nil) // 输出数据类型 def dataType: DataType = ArrayType(StringType) // 是否是确定性的 def deterministic: Boolean = true // 计算结果 def apply(value: Row): Any = { value.getString(0).split(" ") } } val splitUDTF = udf(new SplitUDTF(), ArrayType(StringType)) val df = Seq("hello world", "spark sql").toDF("value") df.select(explode(splitUDTF($"value"))).show() ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值