Hive--自定义函数

最新推荐文章于 2024-05-16 17:55:13 发布

Wang_AI

最新推荐文章于 2024-05-16 17:55:13 发布

阅读量995

点赞数

分类专栏： Hive 文章标签： Hive自定义函数

本文链接：https://blog.csdn.net/Xw_Classmate/article/details/49801969

版权

Hive 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

http://www.cnblogs.com/end/archive/2012/06/18/2553682.html

6 自定义函数

1. UDF

UDF(user defined function)，即用户自定义函数，接受单行输入，并产生单行输出。
步骤如下：

1）自定义一个Java类并继承org.apache.hadoop.hive.ql.exec.UDF类

2）重写evaluate方法

下面来做一个演示：

编写java类：

package com.wv.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;

public class HelloUDF extends UDF {
	public String evaluate(String str) {
		return "helloUDF" + str;
	}
}

打成helloudf.jar，并传到hive客户端的/home/hadoop目录下

在hive cli中添加jar，并创建模板函数：

hive (default)> add jar /home/hadoop/helloudf.jar;
Added [/home/hadoop/helloudf.jar] to class path
Added resources: [/home/hadoop/helloudf.jar]
hive (default)> create temporary function helloudf as 'com.wv.hive.udf.HelloUDF';
OK
Time taken: 0.013 seconds

验证该函数是否可以使用：

hive (default)> select helloudf(t.name) from test t;
OK
helloUDFwang
helloUDFliu
helloUDFzhao
Time taken: 0.12 seconds, Fetched: 3 row(s)

使用完helloudf函数后，可以使用如下命令来删除：drop temporary function helloudf；

2. UDAF

UDAF(user defined aggregation function)，即用户自定义聚合函数，接受多行输入，并产生单行输出。比如MAX，COUNT函数。

1）编写resolver类，resolver类负责类型检查，操作符重载。

继承抽象类org.apache.hadoop.hive.ql.udf.generic.AbstractGenericUDAFResolver，或者实现接口org.apache.hadoop.hive.ql.udf.GenericUDAFResolver2

2）编写evaluator类，evaluator真正实现UDAF的逻辑。

继承org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator。

在GenericUDAFEvaluator类中有一个内部枚举类：Mode，它表示了UDAF在mapreduce的各个阶段，理解Mode的含义，就可以理解hive的UDAF的运行流程。

public static enum Mode {
    /**
     * PARTIAL1: 这个是mapreduce的map阶段:从原始数据到部分数据聚合
     * 将会调用iterate()和terminatePartial()
     */
    PARTIAL1,
        /**
     * PARTIAL2: 这个是mapreduce的map端的Combiner阶段，负责在map端合并map的数据::从部分数据聚合到部分数据聚合:
     * 将会调用merge() 和 terminatePartial() 
     */
    PARTIAL2,
        /**
     * FINAL: mapreduce的reduce阶段:从部分数据的聚合到完全聚合 
     * 将会调用merge()和terminate()
     */
    FINAL,
        /**
     * COMPLETE: 如果出现了这个阶段，表示mapreduce只有map，没有reduce，所以map端就直接出结果了:从原始数据直接到完全聚合
      * 将会调用 iterate()和terminate()
     */
    COMPLETE
  };

编写一个实例:

package com.wv.hive.udaf;

import org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.parse.SemanticException;
import org.apache.hadoop.hive.ql.udf.generic.AbstractGenericUDAFResolver;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorUtils;
import org.apache.hadoop.hive.serde2.typeinfo.TypeInfo;
import org.apache.hadoop.io.LongWritable;

public class CountBigThan extends AbstractGenericUDAFResolver {

	// 参数类型检查
	@Override
	public GenericUDAFEvaluator getEvaluator(TypeInfo[] info)
			throws SemanticException {
		if (info.length != 2) {
			throw new UDFArgumentTypeException(info.length - 1,
					"Exactly two argument is expected.");
		}
		// 返回自定义的逻辑处理类
		return new GenericUDAFCountBigThanEvaluator();
	}

	// 自定义的逻辑处理类
	public static class GenericUDAFCountBigThanEvaluator extends
			GenericUDAFEvaluator {

		private LongWritable result;// 保存最终结果
		private PrimitiveObjectInspector inputIO1;
		private PrimitiveObjectInspector inputIO2;

		/*
		 * map和reduce阶段都会执行init方法
		 * map阶段：parameter长度与udaf输入的参数个数有关
		 * reduce阶段：parameter长度为1
		 */
		@Override
		public ObjectInspector init(Mode m, ObjectInspector[] parameters)
				throws HiveException {
			super.init(m, parameters);

			// 最终结果
			result = new LongWritable(0);

			inputIO1 = (PrimitiveObjectInspector) parameters[0];

			if (parameters.length > 1) {
				inputIO2 = (PrimitiveObjectInspector) parameters[1];
			}

			return PrimitiveObjectInspectorFactory.writableLongObjectInspector;
		}

		@Override
		// map阶段执行
		public void iterate(AggregationBuffer agg, Object[] parameters)
				throws HiveException {
			assert (parameters.length == 2);

			if (parameters == null || parameters[0] == null
					|| parameters[1] == null) {
				return;
			}

			double base = PrimitiveObjectInspectorUtils.getDouble(
					parameters[0], inputIO1);
			double tmp = PrimitiveObjectInspectorUtils.getDouble(parameters[0],
					inputIO2);

			if (base > tmp) {
				((CountAgg) agg).count++;
			}
		}

		@Override
		// 保存一些聚合缓存结果
		public AggregationBuffer getNewAggregationBuffer() throws HiveException {
			CountAgg countAgg = new CountAgg();
			reset(countAgg);
			return countAgg;
		}

		public static class CountAgg implements AggregationBuffer {
			long count;
		}

		@Override
		public void reset(AggregationBuffer countAgg) throws HiveException {
			CountAgg agg = (CountAgg) countAgg;
			agg.count = 0;
		}

		@Override
		public Object terminatePartial(AggregationBuffer agg)
				throws HiveException {
			// 将result值设为CountAgg.cout
			result.set(((CountAgg) agg).count);
			// 返回result
			return result;
		}

		@Override
		public void merge(AggregationBuffer agg, Object partial)
				throws HiveException {
			//将从terminatePartial方法返回的结果和缓存区中的结果相加
			if (partial != null) {
				long p = PrimitiveObjectInspectorUtils.getLong(partial,
						inputIO1);
				((CountAgg) agg).count += p;
			}
		}

		@Override
		public Object terminate(AggregationBuffer agg) throws HiveException {
			// 将result值设为CountAgg.cout
			result.set(((CountAgg) agg).count);
			// 返回result
			return result;
		}

	}

}