Hive自定义函数心得体会

hive自定义函数分为UDF、UDAF、UDTF函数的使用。

       UDF函数的使用主要是针对于单列的操作,UDAF函数主要是针对于多行转单行的操作常用于统计计算。UDTF函数主要是针对于单行转多行的场景,主要是为了解决一些负责的业务场景,需要对字段进行切割。

UDF函数主要是针对单列数据进行处理,只需要继承UDF类,实现evaluate 方法即可,在该方法中也可以指定输入参数类型,输出参数类型,根据自己的业务逻辑进行相关处理就可以了。

UDAF函数是多行转单行的操作,主要的操作就是针对一些统计分析,求最值等一些操作。具体实现是需要实现 init、iterate、terminatePartial、merge、terminate 方法即可,详情参考demo。 

UDTF函数是单行转多行的操作,主要的操作就是针对一些行转列的一些操作哦!具体实现是必须通过继承抽象类GenericUDTF,并且要实现initialize, process,close 函数。hive将通过initialize方法来获取UDTF函数要求的参数类型然后返回与UDTF函数输出行对象相应的Inspector。initialize使用PrimitiveObjectInspector来解析输入的数据,同时定义输出对象Inspector所需要的field。process函数实现具体的数据解析过程,在通过stringIO获取输入字段,程序中使用parseInputRecord方法将json字符串解析成多个字符,将返回一个List完成一行转多行的任务。最后forward将多行数据做udtf函数的输出。

 

注意:

        如果能用sql进行替代实现的,尽可能得还是用sql进行替代,因为这个自定义函数,比较慢,影响程序的运行性能。

 

点击参看示例demo

udtf函数讲解参考:https://www.jianshu.com/p/ac352ceab9cd

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MrZhangBaby

请博主喝杯奶茶

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值