目前spark读取hive的udf,只能读取通过hive命令创建的自定义函数,没有一个很好的方法彻底得解决读取通过修改源码注册的自定义函数的方案。
下面是hive创建自定义函数的语法:
create temporary function row_sequence as 'org.rowsequence.RowSequence';
但是在修改源码包后,自定义的函数在hive-on-spark模式下无法识别和读取,需要自行注册。
//自定义的函数开始
system.registerUDF("add_second", AddSecond.class, false);
//自定义的函数结束
如果想利用hive的spark引擎使用自定义函数,有一个临时解决方案那就是在hive的default数据库通过hive命令注册函数。
hive注册函数的命令模板如下:
CREATE FUNCTION [db_name.]function_name AS class_name [USING JAR|FILE|ARCHIVE 'file_uri' [, JAR|FILE|ARCHIVE 'file_uri'] ];
例如注册上边的add_second函数,可以在hive的default数据库下执行如下命令:
CREATE FUNCTION add_second AS '源码包.addSecond' USING JAR 'hdfs:///root/example.jar';
然后spark就能使用该源码包下自定义的add_second 函数了