hive3自定义函数

本文详细介绍了Hive3中的UDF、UDAF和UDTF三种自定义函数,包括它们的概念、特点、应用场景及代码实现,并探讨了MapJoin优化、数据倾斜问题及其解决方案,以及二次排序的需求和作用。通过对这些技术的了解,有助于提升Hive的数据处理效率和灵活性。
摘要由CSDN通过智能技术生成

一.UDF

        概念说明:user defined function

 特点特征:

应用场景:in:out=1:1,只能输入一条记录当中的数据,同时返回一条处理结果.

代码实现:自定义一个java类

继承UDF类

约定俗成的重写evaluate方法

public String evaluate(String input,int maxSaveStringLength,String replaceSign) {
             if(input.length()<=maxSaveStringLength){
                    return input;
             }
             return input.substring(0,maxSaveStringLength)+replaceSign;
       }

打包类所在项目成一个jar包并上传到hive所在机器

在hive中执行add jar操作,将jar加载到classpath中。

add jar hdfs://'jar包路径';

在hive中创建模板函数,使得后边可以使用该函数名称调用实际的udf函数

create temporary function mask as '包联到类名';

hive sql中像调用系统函数一样使用udf函数

二.UDAF

概念说明 :自定义udaf函数self_count,实现系统udaf count的功能

特点特征: in:out=n:1,即输入N条数据,返回一条处理结果,即列转行

应用场景:聚合函数

代码实现:自定义一个j

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值