1、自定义函数的分类
- UDF:一进一出 (例:你输入多少行就给你返回多少行)
- UDTF:一进多出 (例:你输入一行数据给你返回多行)
- UDAF:多进一出
2、UDF案例实现

分析:上面的需求是一进一出的场景,所以我们需要编写UDF自定义函数。
- 代码实现
(1) 继承org.apache.hadoop.hive.ql.exec.UDF,在里面实现 evaluate方法,在 evaluate 方法中实现自己的逻辑。
package com.shujia.function_hive;
import org.apache.hadoop.hive.ql.exec.UDF;
public class MyUdf extends UDF {
//实现evaluate方法
public String evaluate(String col){
// 张三 ==》 #张三$
String s = "#"+col+"$";
return s;
}
}
(2) 将我们写好代码打包上传Linux 虚拟机
(3) 在 hive shell 中,使用 add jar 路径将 jar 包作为资源添加到 hive 环境中
hive (shuangqian)> add jar /usr/local/soft/data/shuangqian-1.0-SNAPSHOT.jar;
(4) 注册临时函数 fxxxl是你起得函数名,myudf:是我们的类名
hive (shuangqian)> create temporary function fxxxl as 'com.shujia.function_hive.MyUdf';
(5) 使用这个函数
select fxxxl(name) from student limit 10;
(6) 使用函数名处理数据
select fxx1(name) as fxx_name from students limit 10;
#施笑槐$
#吕金鹏$
#单乐蕊$
#葛德曜$
#宣谷芹$
#边昂雄$
#尚孤风$
#符半双$
#沈德昌$
#羿彦昌$
3、UDTF案例实现
(1) 需求
hive(default)> select myudtf("hello,world,hadoop,hive", ",");
hello
world
hadoop
hive
(2) 自定义UDTF函数实现案例一
package com.shujia.function_hive;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache
Hive自定义函数实践:UDF与UDTF详解

本文介绍了Hive中的自定义函数,包括UDF(一进一出)和UDTF(一进多出)的分类及实现案例。详细阐述了UDF的编写过程,从继承UDF类到在Hive环境中注册和使用。同时,也对UDTF的使用场景进行了说明,并给出了UDTF的实现步骤。
最低0.47元/天 解锁文章
1188

被折叠的 条评论
为什么被折叠?



