大数据---29.Hive 自定义函数

学无止境的大象

已于 2023-11-28 17:40:13 修改

阅读量3.9k

点赞数 1

分类专栏： # 大数据文章标签： hive 大数据 hadoop

于 2022-08-09 10:32:20 首次发布

本文链接：https://blog.csdn.net/u014579001/article/details/126212527

版权

大数据专栏收录该内容

29 篇文章 7 订阅

订阅专栏

一、Hive 自定义函数

当 Hive 提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。常用来自定义的是 UDF、UDTF 函数。聚合函数 UDAF 能够满足我们使用的基本都已经内置了。此处就重点介绍自定义UDF函数和自定义UDTF函数。

1.1 函数分类

看到这里，常用的函数就介绍完毕了，当HQL中内置的函数不能满足我们的需求，Hive还为我们提供了自定义函数的方法，学习如何自定义函数前，我们先总结一下函数的分类
函数分为三大类
UDF：一进一出，UDF就类似我们的upper、substr函数
UDAF：多进一出，UDAF就是我们通常说的聚合函数，例如sum avg
UDTF：一进多出，UDTF就类似我们前面说的炸开函数，它可以将一行数据炸开为多列

1.2 实现思路

hive的函数无非也就是一个逻辑的封装，可以接收参数，返回结果，跟java中的方法本质上没有区别。

hive就允许用户开发一个java的方法，来实现你想要的函数的功能；

然后在hive中定义一个自己命名的函数，并将这个函数跟你的java方法所在的类关联起来即可。

1.3 实现步骤

1.3.1自定义函数步骤

1.创建一个 Maven 工程，导入 hive-exec jar 依赖

org.apache.hive hive-exec 1.2.1

2.创建自定义函数类
自定义 UDF 函数，创建的类需继承 GenericUDF类，重写方法(org.apache.hadoop.hive.ql.udf.generic.GenericUDF)

3.在 hive 的命令行窗口创建函数

创建函数分为：创建临时函数、创建永久函数两种。

创建函数命令如下：
create [temporary] function [dbname.]function_name AS class_name;

删除函数命令如下：
drop [temporary] function [if exists] [dbname.]function_name;

创建临时函数

1.将 maven 工程打包后的 jar，添加到 linux 服务器某个目录下
2.使用命令添加 jar，命令为：add jar 目录(jar所在linux目录)
3.创建function，命令：create temporary function 函数名 as 类路径(jar包中自定义函数的类路径)
4.通过命令：show functions可查看自己创建的函数。
5.提示：临时函数，在hive客户端关闭后失效，对 hive 中的全部数据库有效

创建永久函数

1.将 maven 工程打包后的 jar，上传到 hdfs 某个目录下(目录可自定义)
2.创建function，命令：create function ‘库名.函数名’ as ‘类路径’ using jar ‘jar包所在hdfs目录’
3.通过命令：show functions可查看自己创建的函数（如果函数名不是【库名.函数名】格式，show functions是看不到的）。
4.提示：永久函数，只对当前所在库生效，其他库均不生效，所以建议使用【库名.函数名】命名方式。函数不会因为客户端的关闭而失效。
5.在 test 库下创建函数，名称为 test.split，在test 库下可直接 split() 方式使用。如需在 default 库下使用，则可通过加 test 前缀使用。

1.4 例如：

有如下数据：

a,1000,5000,120
b,2200,150,200
c,2200,450,2200
d,1100,1500,320
e,2200,200,4200
f,2200,3500,620

3个字段分别表示：用户id，基本工资，业绩提成，股权收益
需要查询出每个人的三类收益中最高的是哪一种收益。

hive中函数，满足不了本案例的需求。此时，我们可以考虑自己开发一个hive的函数（hive具备这个机制）

针对当前这个问题进行自定义函数进行解决问题：
自定义UDF函数

1.4.1 创建一个 Maven 工程，导入 hive-exec jar 依赖

<dependencies>
    <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-exec</artifactId>
        <version>1.2.1</version>

        <exclusions>
            <exclusion>
                <groupId>org.pentaho</groupId>
                <artifactId>pentaho-aggdesigner-algorithm</artifactId>
            </exclusion>
        </exclusions>
    </dependency>

</dependencies>

注意：Could not find artifact org.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde in nexus-aliyun
这个的错误就要加入排斥
“exclusion标签这个标签的作用是排除关联依赖的引入,因为maven的pom依赖其中有一点是将关联的依赖全都引入进来 , 这个标签在这的作用就是如果关联的依赖和引入的其他依赖可能存在冲突, 就必须将关联的依赖排除掉,所以就用这个标签。”

在这里插入图片描述

1.4.2 创建一个项目hive的项目：

在这里插入图片描述

1.4.3 打包，上传至linux

一般直接上传到root目录然后直接添加上去：
在这里插入图片描述

然后直接添加：
给hive中添加进来
add jar /root/XXX.jar
add jar /root/hivehfc.jar

1.4.3创建一个临时的函数TEMPORARY

create temporary function get_max as ‘com.hive.HiveCustom’;
不能有空格；
在这里插入图片描述
show functions；用来进行展示函数；

在这里插入图片描述
但是这个函数是临时函数；当关闭hive的时候就没有了；

测试：
select get_max(23,45,100);

在这里插入图片描述
select get_max(123,34,10)；
select get_max(12,34,10)；

在这里插入图片描述

这个就是自己弄的函数；

1.4.4 根据需求解决问题；

1.把要进行标号的数据进行导入；
在这里插入图片描述

2.创建表：基本工资，业绩提成，股权收益
create table t_custom(id string,jiben int,yeji int,guquan int)
row format delimited fields terminated by ‘,’;
在这里插入图片描述
3.导入数据
load data local inpath ‘/root/custom.txt’ into table t_custom;

在这里插入图片描述

4.用刚定义的函数来进行操作：就是根据最大的标号；

select id,jiben,yeji,guquan,get_max(jiben,yeji,guquan) from t_custom;

在这里插入图片描述
5.根据需求进行测试数据：
select a.id,a.jiben,a.yeji,a.guquan,
case
when a.number=1 then ‘基本工资’
when a.number=2 then ‘业绩提成’
else ‘股权收益’
end
from
(select id,jiben,yeji,guquan,
get_max(jiben,yeji,guquan) as number
from t_custom)a;
在这里插入图片描述
另一种写法：
select id,jiben,yeji,guquan,
case
when get_max (jiben,yeji,guquan) =1 then ‘基本工资’
when get_max (jiben,yeji,guquan) =2 then ‘业绩提成’
when get_max (jiben,yeji,guquan) =3 then ‘股权收益’
end
from t_custom;

注：临时函数只在一次hive客户端会话中有效，重启会话后就无效

如果需要经常使用该自定义函数，可以考虑创建永久函数：

1.4.5 创建永久函数

1.在原先的基础上通过java来编写程序完成jar包的操作；
2.拷贝jar包到hive的类路径中：
cp hivehfc.jar /usr/local/hive/apache-hive-1.2.2-bin/lib/
在这里插入图片描述
3.创建永久函数；
create function getmaxdefault as ‘com.hive.HiveCustom’;

create function default.getmax as ‘com.hive.HiveCustom’;

关闭客户端之后还是可以使用；