hive udf&udaf开发

最新推荐文章于 2024-06-27 17:03:37 发布

_final__

最新推荐文章于 2024-06-27 17:03:37 发布

阅读量1k

点赞数

分类专栏：数据文章标签： hadoop hive udf udaf 数据

本文链接：https://blog.csdn.net/mhtian2015/article/details/78123064

版权

本文介绍了Hive自定义函数(UDF)和UDAF的开发，包括UDF处理基本数据类型和复杂类型的方法，以及UDAF在聚合操作中的应用。在UDF开发中，针对null值处理和数据类型转换的问题进行了讨论，而UDAF则涉及了迭代、部分终止和合并等步骤。同时，文章提到了通用UDAF的重要性及其开发注意事项。

摘要由CSDN通过智能技术生成

前言

由于之前对hadoop，hive源码了解不多，因此在进行udf和udaf开发时，遇到诸多问题，还是要有时间多看看源码。

UDF

进行UDF开发主要分为两种情况，根据UDF输入参数的类型进行区分。

调用UDF时传参是基本数据类型

若是hive调用UDF时传入的是基本数据类型如string，integer可以通过直接继承org.apache.hadoop.hive.ql.exec.UDF来进行开发。并且hadoop和java的数据类型之间不用进行转换处理（这在我们进行通用udf开发的时候要注意）。主要步骤：
1）继承org.apache.hadoop.hive.ql.exec.UDF
2）实现evaluate方法，此方法可进行重载
如下例子：

import org.apache.hadoop.hive.ql.exec.UDF;
public class Add extends UDF {
public Integer evaluate(Integer a, Integer b) {
               if (null == a || null == b) {
                               return null;
               } return a + b;
}
public Double evaluate(Double a, Double b) {
               if (a == null || b == null)
                               return null;
                               return a + b;
               }
}

调用UDF时传参是复杂类型

若是hive调用UDF时传入的是是复杂类型，如map，list等内嵌数据结构时，使用简单udf的开发方式是不行的，我们可以通过实现org.apache.hadoop.hive.ql.udf.generic.GenericUDF来写出通用的udf。
主要步骤：
1）实现org.apache.hadoop.hive.ql.udf.generic.GenericUDF
2) 重写initialize方法，此方法主要用来检测输入参数，并得到输入参数的Inspector，用来在evaluate方法解析参数（暂时这么理解）
3）重写evaluate方法，这是开发udf的主要逻辑部分
4）重写getDisplayString方法，此方法主要用来描述此udf。出错时会显示
以下是之前实现过对输入map类型进行处理的udf

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;
import org.apache.hadoop.hive.serde2.objectinspector.MapObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.IntObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import org.apache.hadoop.io.Text;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;


public class UDFmapValueScale extends GenericUDF{


    private MapObjectInspector map;
    private IntObjectInspector flag;
    @Override
    public ObjectInspector initializ