1、自定义函数的分类
- UDF:一进一出 (例:你输入多少行就给你返回多少行)
- UDTF:一进多出 (例:你输入一行数据给你返回多行)
- UDAF:多进一出
2、UDF案例实现
分析:上面的需求是一进一出的场景,所以我们需要编写UDF自定义函数。
- 代码实现
(1) 继承org.apache.hadoop.hive.ql.exec.UDF,在里面实现 evaluate方法,在 evaluate 方法中实现自己的逻辑。
package com.shujia.function_hive;
import org.apache.hadoop.hive.ql.exec.UDF;
public class MyUdf extends UDF {
//实现evaluate方法
public String evaluate(String col){
// 张三 ==》 #张三$
String s = "#"+col+"$";
return s;
}
}
(2) 将我们写好代码打包上传Linux 虚拟机
(3) 在 hive shell 中,使用 add jar 路径将 jar 包作为资源添加到 hive 环境中
hive (shuangqian)> add jar /usr/local/soft/data/shuangqian-1.0-SNAPSHOT.jar;
(4) 注册临时函数 fxxxl是你起得函数名,myudf:是我们的类名
hive (shuangqian)> create temporary function fxxxl as 'com.shujia.function_hive.MyUdf';
(5) 使用这个函数
select fxxxl(name) from student limit 10;
(6) 使用函数名处理数据
select fxx1(name) as fxx_name from students limit 10;
#施笑槐$
#吕金鹏$
#单乐蕊$
#葛德曜$
#宣谷芹$
#边昂雄$
#尚孤风$
#符半双$
#沈德昌$
#羿彦昌$
3、UDTF案例实现
(1) 需求
hive(default)> select myudtf("hello,world,hadoop,hive", ",");
hello
world
hadoop
hive
(2) 自定义UDTF函数实现案例一
package com.shujia.function_hive;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import