Hive的UDF实现及注意事项

最新推荐文章于 2022-11-22 16:40:58 发布

原创

最新推荐文章于 2022-11-22 16:40:58 发布 · 4.1k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#Hive #UDF #Eclipse #fatjar #外部资源

本文介绍了如何在Eclipse中编写Hive的UDF，并详细讲解了自定义函数的调用过程，包括创建表并使用UDF进行查询。在遇到问题时，如需引用第三方包，可以通过`add jar`命令或使用fatjar插件进行解决。此外，当UDF需要读取外部资源时，需先使用`add file`命令进行注册，然后在UDF内部以相对路径访问。

Hive自身查询语言HQL能完成大部分的功能，但遇到特殊需求时，需要自己写UDF实现。以下是一个完整的案例。

1、eclipse中编写UDF

①项目中加入hive的lib下的所有jar包和Hadoop中share下hadoop-common-2.5.1.jar（Hadoop目前最新版本2.5.1）。
②UDF类要继承org.apache.hadoop.hive.ql.exec.UDF类，类中要实现evaluate。当我们在hive中使用自定义的UDF的时候，hive会调用类中的evaluate方法来实现特定的功能
③导出项目为jar文件。
注：项目的jdk与集群的jdk要一致。
具体例子：

package com.zx.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;

public class UdfTestLength extends UDF{

    public Integer evaluate(String s)
    {
        if(s==null)
        {
            return null;
        }else{
            return s.length();
        }
    }
}

将上面的类打成jar的形式，我使用eclipse直接导出为test-udf.jar包，然后放在/root目录中。