Java实现Hive UDF详细步骤 (Hive 3.x版本,IDEA开发)

2 篇文章 0 订阅

前言

老版本编写UDF时,需要继承 org.apache.hadoop.hive.ql.exec.UDF类,然后直接实现evaluate()方法即可。
由于公司hive版本比较高(3.x),这次编写UDF就采用了新的版本,继承类org.apache.hadoop.hive.ql.udf.generic.GenericUDF,实现三个方法

1. 新建项目

打开IDEA,新建一个项目,基本配置如下,Archetype选择图中所示
在这里插入图片描述

2.配置maven依赖

导入编写UDF需要用到的依赖

<dependencies>
    <!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec -->
    <dependency>
      <groupId>org.apache.hive</groupId>
      <artifactId>hive-exec</artifactId>
      <version>3.1.2</version>
      <exclusions>
        <exclusion>
          <groupId>org.apache.commons</groupId>
          <artifactId>commons-compress</artifactId>
        </exclusion>
      </exclusions>
    </dependency>
<build>
    <plugins>
      <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-compiler-plugin</artifactId>
        <configuration>
          <source>8</source>
          <target>8</target>
        </configuration>
      </plugin>
    </plugins>
  </build>

3.编写代码

目录结构可自行定义,这块不影响实际功能,代码整体框架如下
我这里代码传入三列数据,返回一列数据,入参可以判断一下是否传入数据正确,以及数据类型是否匹配
主要实现三个方法,具体内容在代码块中有说明

  1. initialize
  2. evaluate
  3. getDisplayString
public class ComputeUnitPrice extends GenericUDF {
 WritableHiveDecimalObjectInspector  decimalObjectInspector;

    //初始化方法,做一些检查
    @Override
    public ObjectInspector initialize(ObjectInspector[] arguments) throws UDFArgumentException {
        // 判断输入参数的个数
        if(arguments.length !=3){
            throw new UDFArgumentLengthException("This UDF Only takes 3 arguments: String, String, Decimal");
        }
        ObjectInspector param1 = arguments[0];
        ObjectInspector param2 = arguments[1];
        ObjectInspector param3 = arguments[2];
        // 判断输入参数的类型
        if(!(param1 instanceof StringObjectInspector)){
            throw new UDFArgumentException("Param1 Type is error,Must be : String");
        }
        if(!(param2 instanceof StringObjectInspector)){
            throw new UDFArgumentException("Param2 Type is error,Must be : String");
        }
//        if(!(param3 instanceof JavaConstantHiveDecimalObjectInspector)){
//            throw new UDFArgumentException("Param3 Type is error,Must be : JavaHiveDecimal");
//        }
        this.decimalObjectInspector = (WritableHiveDecimalObjectInspector ) param3;
        //函数返回值为 Decimal,需要返回 Decimal类型的鉴别器对象
        return PrimitiveObjectInspectorFactory.javaHiveDecimalObjectInspector;
    }
}

    @Override
    public Object evaluate(DeferredObject[] arguments) throws HiveException {
        //计算逻辑编写
    }

	//udf的说明
	@Override
    public String getDisplayString(String[] children) {
        return "ComputeUnitPrice";
    }


    //main方法测试一下数据结果
	public static void main(String[] args) throws HiveException {
        ComputeUnitPrice computeUnitPrice = new ComputeUnitPrice();

        DeferredObject[] param = {new DeferredJavaObject("箱"), new DeferredJavaObject("800g*8袋/箱"), new DeferredJavaObject(100.20)};
        JavaDoubleObjectInspector javaDoubleObjectInspector = PrimitiveObjectInspectorFactory.javaDoubleObjectInspector;

        ObjectInspector stringOi = PrimitiveObjectInspectorFactory.javaStringObjectInspector;
        ObjectInspector doubleOi = PrimitiveObjectInspectorFactory.javaDoubleObjectInspector;
        computeUnitPrice.initialize(new ObjectInspector[]{stringOi, stringOi,doubleOi});
        double res =  javaDoubleObjectInspector.get(computeUnitPrice.evaluate(param));
        System.out.println("res " + res);
       
    }

4.打jar包

将项目打成jar包

mvn clean package

执行完成,target目录下寻找自己的jar包

5.上传服务器

本地上传到机器,再由机器上传到hdfs或者s3等

6.代码中引用

add jars xxxxx/compute_sku_unit_price.jar;
create temporary function compute_sku_unit_price as 'xx.xxx.xxx.xxx.ComputeUnitPrice';
${your_sql};
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 写好Hive UDF自定义函数需要完成以下步骤:1、定义UDF函数类,继承org.apache.hadoop.hive.ql.exec.UDF类;2、重写evaluate()方法,实现UDF函数的功能;3、将UDF函数编译成jar包;4、将jar包上传到Hive的客户端机器上;5、使用add jar语句将UDF函数加载到Hive中;6、使用create temporary function语句注册UDF函数;7、使用UDF函数。 ### 回答2: JavaHive UDF(User-Defined Function,用户自定义函数)是一种用于扩展Hive功能的方法。当Hive内置函数无法满足特定的需求时,可以使用Java编写自定义函数来处理数据。 编写Hive UDF的第一步是创建一个Java类,该类需要继承Hive提供的UDF基类,并重写evaluate()方法。evaluate()方法是自定义函数的核心逻辑,它会对每条输入数据进行处理,并返回结果。 在evaluate()方法中,可以利用Java的强大功能实现自定义的逻辑。例如,可以使用字符串处理函数、数学函数、日期函数等来处理输入的数据。还可以使用条件语句、循环语句等控制结构来实现复杂的业务逻辑。 在编写完自定义函数的Java代码后,需要进行编译,并将生成的jar包上传到Hive的classpath中。为了在Hive中调用自定义函数,需要使用CREATE FUNCTION语句来注册函数。在CREATE FUNCTION语句中,需要指定函数的名称、参数类型和返回类型,并指定要调用的Java类和方法。 在Hive中调用自定义函数时,可以像调用内置函数一样使用它。例如,可以将自定义函数应用于SELECT语句的字段中,以对数据进行处理和转换。 使用自定义函数可以使Hive具有更强大的功能,使其能够满足特定的业务需求。通过Java编写UDF,我们可以在Hive中使用自己熟悉和喜欢的编程语言来实现复杂的逻辑和算法。这为数据处理和分析提供了更多的可能性,使Hive成为一个强大且灵活的数据处理工具。 ### 回答3: JavaHive UDF(User-Defined Function)自定义函数需要遵循一定的步骤和规范。下面是一个简单示例来说明如何编写Java代码来实现自定义Hive函数。 首先,创建一个Java类并命名为CustomFunction。该类需要继承org.apache.hadoop.hive.ql.exec.UDF类,实现evaluate方法。 ```java import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text; public class CustomFunction extends UDF { public Text evaluate(Text input) { if (input == null) { return null; } String value = input.toString(); // 在这里编写自定义函数的逻辑 String result = value + " processed"; return new Text(result); } } ``` 接下来,编译Java代码并创建一个JAR文件。可以使用Maven或者手动编译代码。 在Hive中,使用CREATE FUNCTION语句来注册自定义函数。假设将JAR文件命名为custom-function.jar,可以使用以下语句注册: ```sql CREATE FUNCTION custom_function AS 'com.example.CustomFunction' USING JAR 'hdfs:///path/to/custom-function.jar'; ``` 通过以上语句,注册了名为custom_function的自定义函数,并指定了自定义函数类的完全限定名以及JAR文件的位置。 最后,在Hive中使用自定义函数。例如,可以在SELECT语句中调用自定义函数: ```sql SELECT custom_function(column_name) FROM table_name; ``` 以上代码通过custom_function函数对column_name列中的值进行处理,并返回处理后的结果。 这是一个简单的示例来解释如何使用Java编写Hive UDF自定义函数。实际上,根据具体的需求,可能需要更复杂的逻辑和参数。编写自定义函数需要理解Hive的数据类型和函数接口,并根据需要进行相应的实现

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值