第1关:UDF——“一进一出”
任务描述
本关任务:了解 Hive 中 UDF 创建并使用。
相关知识
为了完成本关任务,你需要掌握:
- 什么是UDF。
- UDF的创建。
- UDF的使用。
什么是UDF
UDF 是用户定义函数,英文全程(User Defined Function),它工作性质是一条数据进入函数,处理后一条处理好的数据输出,简称——“一进一出”,古有赵子龙的七进七出,今有 UDF 的一进一出。回归正题, UDF 是 Hive 自定义函数中最常见的函数,使用率最高,接下来我们一起来看 UDF 是怎么使用的吧!
UDF 实现方法有俩种,一种是比较简单的接口 UDF (org.apache.hadoop.hive.ql.exec.UDF),另一种是较为复杂的接口 GenericUDF (org.apache.hadoop.hive.ql.udf.generic.GenericUDF)。如果读的数据和返回的数据都是基础类型的话,使用简单的 UDF 就行了。如果想要去操作内嵌结构数据结构的话,那你必须掌握 GenericUDF 。
本实训只实现简单 UDF 的创建和使用。
简单 UDF 只需要重写evalute