Spark SQL的UDF

最新推荐文章于 2023-07-15 18:24:45 发布

庐州小白

最新推荐文章于 2023-07-15 18:24:45 发布

阅读量251

点赞数

分类专栏：大数据文章标签： spark

本文链接：https://blog.csdn.net/weixin_42194781/article/details/106780789

版权

大数据专栏收录该内容

16 篇文章 0 订阅

订阅专栏

UDF（User Defined Function）：spark SQL中用户自定义函数，用法和spark SQL中的内置函数类似；是saprk SQL中内置函数无法满足要求，用户根据业务需求自定义的函数。

因为目前Spark SQL本身支持的函数有限，一些常用的函数都没有，比如len, concat…etc 但是使用UDF来自己实现根据业务需要的功能是非常方便的。Spark SQL UDF其实是一个Scala函数，被catalyst封装成一个Expression结点，最后通过eval方法计根据当前Row计算UDF的结果。 Spark SQL UDF使用起来非常方便，分2个步骤：

当我们导入了SparkSession，即有注册UDF的功能。

//创建SparkSession
val spark = SparkSession.builder().master("local").appName("Name").getOrCreate()
//创建 用户自定义函数
val len = (s: String) => s.length
//注册 spark.udf.register(udfName: String, func: FunctionN)
//spark.udf.register("len", len)

由于scala语言的限制，这里UDF的参数仅支持22个。

使用

spark.sql("SELECT udfName(para1, para2...) FROM tableName")

庐州小白

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL的UDF

UDF（User Defined Function）：spark SQL中用户自定义函数，用法和spark SQL中的内置函数类似；是saprk SQL中内置函数无法满足要求，用户根据业务需求自定义的函数。因为目前Spark SQL本身支持的函数有限，一些常用的函数都没有，比如len, concat…etc 但是使用UDF来自己实现根据业务需要的功能是非常方便的。Spark SQL UDF其实是一个Scala函数，被catalyst封装成一个Expression结点，最后通过eval方法计根据当前Ro
复制链接

扫一扫