代码中分别用面向对象和面向函数两种写法自定义了两个函数:
low2Up: 小写转大写
up2Low: 大写转小写
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.{DataFrame, SparkSession}
object SparkSQLFunction {
def main(args: Array[String]): Unit = {
//1. 构建SparkSession对象
val sparkSession: SparkSession = SparkSession
.builder()
.appName("SparkSQLFunction")
.master("local[2]")
.getOrCreate()
//2. 测试数据加载为DataFrame
val dataFrame: DataFrame = sparkSession.read.text("E:\\test_udf_data.txt")
//3. 创建临时表
dataFrame.createTempView("t_udf")
//4. 调用udf的register方法,这一步是构建udf的关键; register接受三个值: 注册udf名称,函数体,返回值类型 (面向对象写法)
sparkSession.udf.register("low2Up",new UDF1[String, String] {
override def call(t1: String): String = {t1.toUpperCase}
},StringType)
//5. 另外一种更加方便的构建udf方式 (面向函数写法)
sparkSession.udf.register("up2Low",(x:String)=>x.toLowerCase)
//6. 调用sparksql测试udf函数
sparkSession.sql("select value from t_udf").show()
sparkSession.sql("select low2Up(value) from t_udf").show()
sparkSession.sql("select up2Low(value) from t_udf").show()
//7. 关闭连接
sparkSession.stop()
}
}