【Hive】(十二)Hive自定义函数详解(UDF(1),2024年最新PopupWindow和Dialog区别

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以添加V获取:vip204888 (备注大数据)
img

正文

	- [7.即可在hql中使用自定义的函数](#7hql_85)
+ [三、UDAF:User- Defined Aggregation Funcation 用户定义聚合函数,可对多行数据产生作用;等同与SQL中常用的SUM(),AVG(),也是聚合函数](#UDAFUser_Defined_Aggregation_Funcation_SQLSUMAVG_90)
+ [四、UDTF:User-Defined Table-Generating Functions,用户定义表生成函数,用来解决输入一行输出多行](#UDTFUserDefined_TableGenerating_Functions_154)

前言

在前面,我详细的整理了【Hive】(十一)Hive 内置函数集合,但有的时候面对复杂的业务场景,系统的内置函数难免力有不逮,这时候就是我们自定义函数派上用场的时候了!✌

一、自定义函数

1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。
2)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。
3)根据用户自定义函数类别分为以下三种:

  • UDF(User-Defined-Function) 用户定义函数
    一进一出
  • UDAF(User-Defined Aggregation Function) 用户定义聚集函数
    聚集函数,多进一出
    类似于:count/max/min
  • UDTF(User-Defined Table-Generating Functions)用户定义表生成函数
    一进多出
    如lateral view explore()

UDF 操作作用于单个数据行,并且产生一个数据行作为输出。大多数函数都属于这一类(比如数学函数和字符串函数)。

UDAF 接受多个输入数据行,并产生一个输出数据行。像COUNT和MAX这样的函数就是聚集函数。

UDTF 操作作用于单个数据行,并且产生多个数据行-------一个表作为输出。

简单来说:
UDF:返回对应值,一对一 | UDAF:返回聚类值,多对一 | UDTF:返回拆分值,一对多

二、UDF:用户定义(普通)函数,只对单行数值产生作用

1.创建一个Maven工程Hive
2.导入依赖
    <!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec -->
    <dependency>
      <groupId>org.apache.hive</groupId>
      <artifactId>hive-exec</artifactId>
      <version>1.1.0</version>
    </dependency>

3.创建一个类

(1)继承org.apache.hadoop.hive.ql.UDF
(2)需要实现evaluate函数;evaluate函数支持重载
(3)在hive的命令行窗口创建函数
(4)在hive的命令行窗口删除函数
Drop [temporary] function [if exists] [dbname.]function_name

hive> drop temporary function iu;

示例如下:

package com.kgc.services.udf;

import org.apache.hadoop.hive.ql.exec.UDF;

/\*\*
 \* @author:Tokgo J
 \* @date:2019/12/16
 \* @aim:
 \*/

public class InitialUpper extends UDF {

    public String evaluate(final String txt){
        return txt.substring(0,1).toUpperCase()+txt.substring(1);
    }
}

4.打成jar包上传到服务器/opt/soft/data/udf.jar
5.将jar包添加到hive的classpath
  • 添加jar
    add jar linux_jar_path
hive> add jar /opt/soft/data/fun.jar;
Added [/opt/soft/data/fun.jar] to class path
Added resources: [/opt/soft/data/fun.jar]

6.创建临时函数与开发好的java class关联
  • 创建function
    create [temporary] function [dbname.]function_name AS class_name
hive> create temporary function iu as 'com.kgc.services.udf.InitialUpper';

7.即可在hql中使用自定义的函数
hive> select iu(name) from mtest;

三、UDAF:User- Defined Aggregation Funcation 用户定义聚合函数,可对多行数据产生作用;等同与SQL中常用的SUM(),AVG(),也是聚合函数

UDAF实现有简单与通用两种方式:

a. 简单UDAF因为使用Java反射导致性能损失,而且有些特性不能使用,已经被弃用了;

View Code

b. 另一种涉及两个类:AbstractGenericUDAFResolverGenericUDAFEvaluator

继承UDAFResolver类,重写 getEvaluator() 方法;

继承GenericUDAFEvaluator类,生成实例给getEvaluator();

在GenericUDAFEvaluator类中,重写init()、iterate()、terminatePartial()、merge()、terminate()方法

package com.kgc.services.udaf;

import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;

/\*\*
 \* @author:Tokgo J
 \* @date:2019/12/17
 \* @aim:将用户名连成一行 多进一出 依靠内部类进行加工
 \*


**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**需要这份系统化的资料的朋友,可以添加V获取:vip204888 (备注大数据)**
![img](https://img-blog.csdnimg.cn/img_convert/d9a79977b2df2c01e46840d90228e590.png)

**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**

难做到真正的技术提升。**

**需要这份系统化的资料的朋友,可以添加V获取:vip204888 (备注大数据)**
[外链图片转存中...(img-bKeuDOz6-1713342805584)]

**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**

  • 16
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值