HIVE UDF(user-defined function)两种方式
第一种
继承UDF(org.apache.hadoop.hive.ql.exec.UDF),重写evaluate方法,可以重载(ps:重载与返回值类型无关,不明白,自行百度),evalute方法接收来自hive的一行记录(可以包含多个参数),进行处理,并返回结果(可以返回void)。
第二种
继承抽象类Generic(org.apache.hadoop.hive.ql.udf.generic.GenericUDF),必须重写initialize,evalute和getDisplayString方法。
initialize方法,方法会被每条记录调用(可以包含多个参数,传入的参数是数组),返回值只有一个(通过处理,返回值只有一个),且是ObjectInspector类,这个方法是为了确定参数的返回类型,如果传入参数不合法,抛出异常UDFArgumentException,一般需要自行抛出,ReturnObjectInspectorResolver通过获取非null值变量的类型并使用这个数据类型确定返回值类型
evaluate,输入的是一个DeferredObject数组(deffered,推迟),ReturnObjectInspectorResolver通过从这个数组对象中获取值
getDisplayString:用于在调用这个UDF时,打印出描述信息,运行出错的时候会打印,运行正确的时候不会打印。
先调用initialize方法,后调用evaluate方法,getDisplayStri

本文介绍了HIVE自定义函数(UDF)的两种实现方式:一是继承UDF,重写evaluate方法;二是继承GenericUDF,需要实现initialize、evaluate和getDisplayString方法。在初始化方法initialize中确定参数返回类型,evaluate处理输入并返回结果,getDisplayString用于显示描述信息。
最低0.47元/天 解锁文章
1280

被折叠的 条评论
为什么被折叠?



