hive udf使用及踩坑

hive注册udf函数

1 注册udf

1 maven项目pow文件

    <properties>
        <hive.version>2.1.1-cdh6.1.0</hive.version>
    </properties>
    
    <dependencies>
        <dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-exec</artifactId>
            <version>${hive.version}</version>
        </dependency>

    </dependencies>

    <!--添加CDH的仓库-->
    <repositories>
        <repository>
            <id>nexus-aliyun</id>
            <url>http://maven.aliyun.com/nexus/content/groups/public</url>
        </repository>
        <repository>
            <id>cloudera</id>
            <url>https://repository.cloudera.com/artifactory/cloudera-repos</url>
        </repository>
    </repositories>

    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.6.0</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                    <encoding>UTF-8</encoding>
                </configuration>
            </plugin>
        </plugins>
    </build>

2 测试类

//注:实现UDF函数的套路是一样的,第一步继承UDF函数,第二步重写evaluate方法
public class HelloUDF extends UDF {
    
    public String evaluate(String input) {
        return "Hello:" + input;
    }

   
    //测试
    public static void main1(String[] args) {
        HelloUDF udf = new HelloUDF();
        String output = udf.evaluate("测试数据");
        System.out.println(output);
    }
}

3 打包

mvn package

4 创建永久函数

CREATE FUNCTION db.sayHello AS 'com.cd.hive.udfs.udf.HelloUDF' USING JAR 'hdfs:///tmp/lib/hive/hive-udfs-1.0.0-SNAPSHOT.jar';

# 推荐使用hdfs保存jar包,因为放hdfs,整个集群的客户端都可以访问
# 建议把前面的库名带上,意思是该函数作用于某个库,不带的话默认是default库

5 查看函数

1. 查找函数

# 我是在default库下面建的函数,下面展示查看函数

hive (default)> show functions;

或者

hive (default)> SHOW FUNCTIONS LIKE '*.hello';


# 可以查找到我们的函数
default.sayhello 


2 查看mysql中hive元数据库的FUNCS表

SELECT * FROM FUNC_RU;

SELECT * FROM FUNCS;

效果图如下:

 

 

查看hive的元数据库,函数相关的表funcs和func_ru

6 删除永久函数

drop FUNCTION sayHello;

2 踩坑

1 我在hive cli里面注册的函数,在cli窗口使用命令,是生效的,如下

并且在元数据库里面也是查到了function信息的(FUNC_RU和FUNCS里面能查到)

但是在其他程序里,比如在beeline里面却没法使用,报错如下

Error: Error while compiling statement: FAILED: SemanticException [Error 10011]: Line 1:7 Invalid function 'sayhello' (state=42000,code=10011)

原因:实例内存数据不一致

hive cli是一个HiveServer客户端实例,beeline是一个HiveServer客户端实例,其他程序也是一个HiveServer客户端实例,而多个HiveServer之间共用的元数据未同步,导致不同HiveServer实例内存数据不一致,造成UDF不生效。

解决办法:

# 参考官网 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Create/Drop/ReloadFunction

需要将新建的UDF信息同步到HiveServer中,执行reload function操作即可。

reload function #在你执行查询之前先执行此操作进行函数元数据同步就ok了

 

效果图如下:

 

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值