Hive中自定义函数UDF、UDTF函数介绍

Hive自定义函数实践：UDF与UDTF详解

最新推荐文章于 2023-04-14 11:03:14 发布

原创

最新推荐文章于 2023-04-14 11:03:14 发布 · 1.3k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#hive #hadoop #大数据

本文介绍了Hive中的自定义函数，包括UDF（一进一出）和UDTF（一进多出）的分类及实现案例。详细阐述了UDF的编写过程，从继承UDF类到在Hive环境中注册和使用。同时，也对UDTF的使用场景进行了说明，并给出了UDTF的实现步骤。

1、自定义函数的分类

UDF：一进一出（例：你输入多少行就给你返回多少行）
UDTF：一进多出（例：你输入一行数据给你返回多行）
UDAF：多进一出

2、UDF案例实现

在这里插入图片描述
分析：上面的需求是一进一出的场景，所以我们需要编写UDF自定义函数。

代码实现
(1) 继承org.apache.hadoop.hive.ql.exec.UDF，在里面实现 evaluate方法，在 evaluate 方法中实现自己的逻辑。

package com.shujia.function_hive;
import org.apache.hadoop.hive.ql.exec.UDF;

public class MyUdf extends UDF {
   
   
	//实现evaluate方法
	public String evaluate(String col){
   
   
	// 张三 ==》 #张三$
	String s = "#"+col+"$";
	return s;
	}
}

(2) 将我们写好代码打包上传Linux 虚拟机
(3) 在 hive shell 中，使用 add jar 路径将 jar 包作为资源添加到 hive 环境中

hive (shuangqian)> add jar /usr/local/soft/data/shuangqian-1.0-SNAPSHOT.jar;

(4) 注册临时函数 fxxxl是你起得函数名，myudf:是我们的类名

hive (shuangqian)> create temporary function fxxxl as 'com.shujia.function_hive.MyUdf';

(5) 使用这个函数

select fxxxl(name) from student limit 10;

(6) 使用函数名处理数据

select fxx1(name) as fxx_name from students limit 10;
#施笑槐$
#吕金鹏$
#单乐蕊$
#葛德曜$
#宣谷芹$
#边昂雄$
#尚孤风$
#符半双$
#沈德昌$
#羿彦昌$

3、UDTF案例实现

(1) 需求

hive(default)> select myudtf("hello,world,hadoop,hive", ",");
hello
world
hadoop
hive

(2) 自定义UDTF函数实现案例一

package com.shujia.function_hive;

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache