【Spark】sparksql中使用自定义函数

卜塔

已于 2023-04-13 13:41:58 修改

阅读量941

点赞数

分类专栏： Spark 文章标签： spark 大数据分布式

于 2020-03-11 08:47:09 首次发布

本文链接：https://blog.csdn.net/NextAction/article/details/104789089

版权

Spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

代码中分别用面向对象和面向函数两种写法自定义了两个函数:
low2Up: 小写转大写
up2Low: 大写转小写

import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.{DataFrame, SparkSession}

object SparkSQLFunction {
  def main(args: Array[String]): Unit = {
    //1. 构建SparkSession对象
    val sparkSession: SparkSession = SparkSession
      .builder()
      .appName("SparkSQLFunction")
      .master("local[2]")
      .getOrCreate()
    //2. 测试数据加载为DataFrame
    val dataFrame: DataFrame = sparkSession.read.text("E:\\test_udf_data.txt")
    //3. 创建临时表
    dataFrame.createTempView("t_udf")
    //4. 调用udf的register方法,这一步是构建udf的关键; register接受三个值: 注册udf名称,函数体,返回值类型 (面向对象写法)
    sparkSession.udf.register("low2Up",new UDF1[String, String] {
      override def call(t1: String): String = {t1.toUpperCase}
    },StringType)
    //5. 另外一种更加方便的构建udf方式 (面向函数写法)
    sparkSession.udf.register("up2Low",(x:String)=>x.toLowerCase)
    //6. 调用sparksql测试udf函数
    sparkSession.sql("select value from t_udf").show()
    sparkSession.sql("select low2Up(value) from t_udf").show()
    sparkSession.sql("select up2Low(value) from t_udf").show()
    //7. 关闭连接
    sparkSession.stop()
  }
}

卜塔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Spark】sparksql中使用自定义函数

代码中分别用面向对象和面向函数两种写法自定义了两个函数:low2Up: 小写转大写up2Low: 大写转小写import org.apache.spark.sql.types.StringTypeimport org.apache.spark.sql.{DataFrame, SparkSession}object SparkSQLFunction { def main(args...
复制链接

扫一扫