自定义UDF函数
需求:自定义一个UDF实现计算给定基本数据类型的长度
1、创建Maven工程导入依赖
<dependencies>
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-exec</artifactId>
<version>3.1.2</version>
</dependency>
</dependencies>
2、编写MyUDF类
package com.hpu.hive.udf;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;
import org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
/**
* @author zyn
* @version 1.0
* @date 2021/12/24 15:06
*/
public class MyUDF extends GenericUDF {
@Override
public ObjectInspector initialize(ObjectInspector[] arguments) throws UDFArgumentException {
if (arguments.length!=1){
throw new UDFArgumentLengthException("only one arg");
}
if (!arguments[0].getCategory().equals(ObjectInspector.Category.PRIMITIVE)){
throw new UDFArgumentTypeException(1,"need primitive type arg");
}
return PrimitiveObjectInspectorFactory.javaIntObjectInspector;
}
@Override
public Object evaluate(DeferredObject[] arguments) throws HiveException {
Object o = arguments[0].get();
if (o==null) {
return 0;
}
return o.toString().length();
}
@Override
public String getDisplayString(String[] children) {
return "";
}
}
3、打包jar包并上传至服务器
1、创建临时函数
- 将jar包添加到hive的classpath,临时生效
0: jdbc:hive2://hadoop102:10000> add jar /home/hadoop/test/hivedemo.jar;
-
创建临时函数与开发好的java class关联
0: jdbc:hive2://hadoop102:10000>create temporary function my_len as "com.hpu.hive.udf.MyUDF";
-
查看函数并使用函数
show functions; select my_len(true);
-
删除临时函数
drop temporary function my_len;
注意:临时函数只跟会话有关系,跟库没有关系。只要创建临时函数的会话不断,在当前会话下,任意一个库都可以使用,其他会话全都不能使用。
2、创建永久函数
-
因为add jar 本身也是临时生效,所以在创建永久函数的时候,需要制定路径(并且因为元数据的原因,这个路径还得是hdfs上的路径
create function my_len2 as "com.hpu.hive.udf.MyUDF" using jar "hdfs://hadoop102:8020/udf/hivedemo.jar";
-
在hql中使用自定义的永久函数
-- 在当前库使用该函数 select my_len2(true); -- 在其他库使用该函数 select default.my_len2(false);
-
删除函数
drop function my_len2();
永久函数跟会话没有关系,创建函数的会话断了以后,其他会话也可以使用。
永久函数创建的时候,在函数名之前需要自己加上库名,如果不指定库名的话,会默认把当前库的库名给加上。