Spark1.1推出了Uer Define Function功能,用户可以在Spark SQL 里自定义实际需要的UDF来处理数据。
因为目前Spark SQL本身支持的函数有限,一些常用的函数都没有,比如len, concat...etc 但是使用UDF来自己实现根据业务需要的功能是非常方便的。
Spark SQL UDF其实是一个Scala函数,被catalyst封装成一个Expression结点,最后通过eval方法计根据当前Row计算UDF的结果,源码分析见:Spark SQL源码分析之UDF
Spark SQL UDF使用起来非常方便,分2个步骤:
一、注册
当我们导入了SQLContext或者HiveContext,即有注册UDF的功能。
registerFunction(udfName : String, func : FunctionN)
由于scala语言的限制,这里UDF的参数仅支持22个。
二、使用
select udfName(param1, param2....) from tableName
三、示例
我们这里创建2张表:
第一张dual会从README.md读取记录,里面仅有一个字段line : String
第二张表src,有2个字段key,value,数据是spark sql自带的测试数据。
我们使用
sbt/sbt hive/console进入测试环境:
1、字符串取长度 len()
创建table dual:
scala> sql("create table dual(line string)").collect()
14/09/19 17:41:34 INFO metastore.HiveMetaStore: 0: create_table: Table(tableName:dual, dbName:default, owner:root, createTime:1411119694, lastAccessTime:0, retention:0, sd:StorageDescriptor(cols:[FieldSc