自定义函数有三种
一:一个输入对应一个输出,比较常用,UDF
二:多个输入对应一个输出,又称为聚合函数,跟count函数类似,名叫UDAF
三:一个输入对应对个输出,即一个输入对应输出一张表,名叫UDTF
UDF:
写udf函数的时候需要继承UDF类,并且写至少一个evaluate方法,执行的时候会根据参数的多少调用对应的函数
UDAF:
写UDAF的时候需要继承UDAF类,并且需要实现以下方法
init() 方法 init()方法负责初始化数据和加载资源,只会调用一次
iterate()方法 每次聚合都会调用,每次就算都会更新内部状态,方法会先检查参数是否为null,如果是会将该参数忽略,如果该参数是合法的我们需要返回true
terminatePaetial()方法 这个方法—
merge() 方法 在
terminate()方法
UDTF:
这里不进行介绍了,一般用不到
UDF 实例:
import org.apache.hadoop.hive.ql.exec.UDF;
public class MyFirstUDF extends UDF{
public String evaluate(int a){
if(a>10){
return "bigdata";
}
return a+"";
}
}
需要在hive里面使用
#加载jar包
hive>add jar /udf.jar
#加载临时函数
hive>create temporary function firstUDF as 'hive.MyFirstUDF';
#使用临时函数
hive>select firstUDF() from t_sql;
#删除临时函数
hive>drop temporary function firstUDF;
UDAF实例:
未完待续—-