hive自定义UDF

Hive 内置函数

Date Functions
Conditional Functions
Misc. Functions

Hive自定义函数

  • UDF(User-Defined-Function) 一进一出
  • UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/min
  • UDTF(User-Defined Table-Generating Functions) 一进多出,如explode()
    使用方式 :在HIVE会话中add 自定义函数的jar文件,然后创建function继而使用函数

UDF 开发

  1. UDF函数可以直接应用于select语句,对查询结构做格式化处理后,再输出内容
  2. 编写UDF函要注意以下几点:
    a. 自定义UDF需要继承org.apache.hadoop.hive.ql.exec.UDF
    b. 需要实现evaluate函数,evaluate函数支持重载
  3. 步骤
    a. 把程序打包放到目标机器上去;
    b. 进入hive客户端,添加jar包:hive> add jar /run/jar/udf_test.jar;
    c. 创建临时函数:hive> CREATE TEMPORARY FUNCTION add_example AS 'hive.udf.Add';
    d. 销毁临时函数:hive> DROP TEMPORARY FUNCTION add_example;
    e. 查询HQL语句:

SELECT add_example(8, 9) FROM scores;
SELECT add_example(scores.math, scores.art) FROM scores;
SELECT add_example(6, 7, 8, 6.8) FROM scores;

Hive的UDF开发只需要重构UDF类的evaluate函数即可

package com.hrj.hive.udf;
import org.apache.hadoop.hive.ql.exec.UDF;
public class helloUDF extends UDF {
    public String evaluate(String str) {
        try {
            return "HelloWorld " + str;
        } catch (Exception e) {
            return null;
        }
    }
} 

Hive 自定义函数调用

将该java文件编译成helloudf.jar
hive> add jar helloudf.jar;
hive> create temporary function helloworld as 'com.hrj.hive.udf.helloUDF';
hive> select helloworld(t.col1) from t limit 10;
hive> drop temporary function helloworld;

1.helloworld为临时的函数,所以每次进入hive都需要add jar以及create temporary操作
2.UDF只能实现一进一出的操作,如果需要实现多进一出,则需要实现UDAF

 

Hive复合数据类型

 

Hive操作复合类型

eg2:

HIVE 编写自定义函数UDF

一 新建JAVA项目 并添加 hive-exec-2.1.0.jar 和hadoop-common-2.7.3.jar

  

  hive-exec-2.1.0.jar 在HIVE安装目录的lib目录下

  hadoop-common-2.7.3.jar在hadoop的安装目录下的\share\hadoop\common

 二 编一个一个类并继承UDF 并重写evaluate方法

  下面以rownum为例

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

package com.udf;

import org.apache.hadoop.hive.ql.exec.UDF;

import org.apache.hadoop.io.Text;

public class RowNumUDF extends UDF{

     

    public static String signature = "_";

    public static int order = 0;

     

    public int evaluate(Text text){

         

        if(text != null){

             

            //分组排序的依据,列名,通常为主键

            String colName = text.toString();

             

            //处理第一条数据

            if(signature == "_"){

                 

                //记下分组排序的字段:主键,并将rownum设为1

                signature = colName;

                order = 1;

                 

                //返回rownum

                return order;

            }else{

            //首先比对是否和上一条主键相同

            if(signature.equals(colName)){

                 

                //rownum依次加1

                order++;

                return order;

            }else{

                    //如果主键改变,将rownum设为1

                    signature = colName;

                    order = 1;

                    return order;

                }

            }

        }else{

            //如果主键为空,则返回-1

            return -1;

        }

    }

}

三 导出位jar包并在HIVE中注册

  

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值