Spark SQL自定义函数_第五章

最新推荐文章于 2023-02-20 11:45:00 发布

a大数据yyds

最新推荐文章于 2023-02-20 11:45:00 发布

阅读量1k

点赞数 1

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_45765882/article/details/105561548

版权

1.自定义函数分类
类似于hive当中的自定义函数， spark同样可以使用自定义函数来实现新的功能。
spark中的自定义函数有如下3类
1.UDF(User-Defined-Function)
输入一行，输出一行
2.UDAF(User-Defined Aggregation Funcation)
输入多行，输出一行
3.UDTF(User-Defined Table-Generating Functions)
输入一行，输出多行
2、自定义UDF
需求
有udf.txt数据格式如下：

Hello
abc
study
small

通过自定义UDF函数将每一行数据转换成大写
select value,smallToBig(value) from t_word
代码演示:

def main(args: Array[String]): Unit = {
//1、创建sparksession
val spark: SparkSession = SparkSession.builder().master(“local[*]”).appName(“demo01”).getOrCreate()
//2、创建sparkcontext
val sc: SparkContext = spark.sparkContext
//3、读取数据。并操作
val ttRDD: RDD[String] = sc.textFile(“file:///F:\传智播客\传智专修学院\第二学期\34\05-Spark\资料\udf.txt”)
import spark.implicits._
val UDFDS: Dataset[St