一、UDF
一个udf必须满足下面两个条件:
1、必须是org.apache.hadoop.hive.ql.exec.UDF的子类
2、必须至少实现了evaluate()方法
在编写了UDF之后,需要在调用之前引入这个UDF打成的jar包
add jar /path/to/hive-examples.jar
还需要为java类取一个别名
create temporary function strip as 'com.hadoopbook.hive.Strip'
其中单引号中是UDF所在的命名空间,之后可以直接通过调用strip()函数来完成指定的功能了
实际应用可以参考一下这个链接:http://blog.csdn.net/zhangzhaokun/article/details/26960081
二、UDAF
UDAF是org.apache.hadoop.hive.ql.exec.UDAF的子类,且包含了一个或多个嵌套的,实现了org.apache.hadoop.hive.ql.UDAFEvaluator的静态类
一个静态类中必须实现下面5个方法
init()对计算函数进行初始化,并重设其内部状态
iterate()每次对一个新值进行聚集计算时需要调用iterate()方法
terminatePartial()获取部分聚集的结果,对部分聚集的结果进行封装返回
merge()合并部分聚集的结果时调用
terminate()返回计算函数最终产生的结果