Hive UDF开发流程

最新推荐文章于 2022-07-26 11:05:49 发布

晚春初夏的你

最新推荐文章于 2022-07-26 11:05:49 发布

阅读量792

点赞数

分类专栏： Hive 文章标签： hadoop hive

本文链接：https://blog.csdn.net/weixin_42834505/article/details/106793304

版权

本文介绍了在Hive中开发自定义UDF的流程，包括UDF分类，详细步骤如设置pom.xml依赖，继承UDF类，重写evaluate方法，打包jar，上传到HDFS，注册UDF以及如何在查询中使用自定义函数。

摘要由CSDN通过智能技术生成

文章目录

一.概述

通常情况下，当hive自带的函数并不能完全满足业务需求，这时就需要我们自定义UDF函数了。
UDF函数其实就是一个简单的函数，执行过程就是在Hive转换成MapReduce程序后，执行java方法，类似于像MapReduce执行过程中加入一个插件，方便扩展。UDF只能实现一进一出的操作，如果需要实现多进一出，则需要实现UDAF。

二.UDF分类

Hive中有3种UDF：

UDF：操作单个数据行，产生单个数据行；
UDAF：操作多个数据行，产生一个数据行；
UDTF：操作一个数据行，产生多个数据行一个表作为输出；

三.自定义UDF

1.pom.xml依赖

 <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-common</artifactId>
      <version>2.6.0</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hive</groupId>
      <artifactId>hive-exec</artifactId>
      <version>1.1.0</version>