自定义函数
Hive中为我们提供了很多的内置函数,但是在实际工作中,有些情况下hive提供的内置函数无法满足我们的需求,就需要我们自己来自定义函数 。
UDF分为三种,分别如下
1、UDF(User-Defined-Function),一进一出(输入一行,输出一行),比如:upper()、lowser()等。
2、UDAF(User-Defined Aggregation Funcation),多进一出(输入多行,输出一行),比如:avg()、sum()等。
3、UDTF(User-Defined Table-Generating Functions),一进多出(输入一行,输出多行),比如:collect_set()、collect_list()等。
Hive的自定义函数的步骤:
1、创建自定义函数类继承 org.apache.hadoop.hive.ql.exec.UDF类
2、实现evaluate函数
3、把程序打包放到目标节点上去
先从eclipse导出jar包
上传到集群目标节点lib库
[root@master ~]# cd /opt/app/Hive/hive-2.3.3/
[root@master hive-2.3.3]# ls
bin conf examples jdbc LICENSE RELEASE_NOTES.txt
binary-package-licenses derby.log hcatalog lib NOTICE scripts
[root@master hive-2.3.3]# cd lib/
#上传导出的包
[root@master lib]# rz
4、进入hive端,添加jar包
hive (bigdata)> add jar /opt/app/Hive/hive-2.3.3/lib/udf.jar;
5、创建临时函数create temporary function 自定义名称 AS ‘自定义UDF的全类名’
hive (bigdata)> create temporary function myLower as "com.zhiyou100.hadoop.hive.udf.Lower";
6、执行HQL语句
hive (bigdata)> select name,mylower(name) from test_udf;