hive java 编程_Hive 编程专题之 - 自定义函数 Java 篇

Hive 函数,总体分成内建函数与自定义函数。

内建函数针对不同的数据类型有分成很多种,字符函数,数值函数,日期函数,转换函数等;

自定义函数与我们在传统商业数据库中遇到的编译函数一个概念。在 SQL Server 中,我们使用 c# 来编写一些内建函数不能解决的问题,比如正则,而 Oracle 中则使用 Java 编写的 Jar 来扩展函数。Hive 中的自定义函数与 Oracle 一样,都依赖 Jar. 意味着使用 Java 灵活的编写一些程序来处理内建函数达不到的功能。

1 常看所有内建和自建的函数

show functions ;

注意:Hive 2.3.3 内建函数 271 个

describe function fnGetDetail

describe function extend fnGetDetail

2 使用 java 自定义函数

使用 Java. Scala 都可以编写 Hive 使用的自定义函数。只是在选择编译工具的时候,有些讲究。Eclipse 和其他一些 Java 编辑工具 都是可以用来生成 jar 的 IDE,将生成的 Jar 放到 HDFS 上, Hive 就能应用了。

3 使用 Java 来编写简单的 Hive 自定义函数

3.1 Eclipse 建立一个简单的 Maven 项目

3.2 引用特定的几个 Hive / Hadoop jar

虽说是为 Hive 定制的自定义函数类,但库引用不仅仅是从 Hive 的源代码中来,也有可能是从 Hadoop 的基类库中寻找。

3.3 一段简单的大写转换函数:

package hive.function;

import org.apache.hadoop.hive.ql.exec.UDF ;

import org.apache.hadoop.io.Text ;

public class upperCase extends UDF{

public Text evaluate(final javax.xml.soap.Text s) {

if(s==null) {return null ;}

return new Text(s.toString().toUpperCase());

}

}

3.4 导出 eclipse, 导入 Hive class path:

hive> add jar /home/SparkAdmin/HiveFunctions/upperCase.jar

> ;

Added [/home/SparkAdmin/HiveFunctions/upperCase.jar] to class path

Added resources: [/home/SparkAdmin/HiveFunctions/upperCase.jar]

hive>

3.5 定义 Hive 函数

如果仅仅用 jar 中的类名来创建函数,是不够的:

hive> create temporary function upperCase as upperCase ;

MismatchedTokenException(24!=352)

at org.antlr.runtime.BaseRecognizer.recoverFromMismatchedToken(BaseRecognizer.java:617)

at org.antlr.runtime.BaseRecognizer.match(BaseRecognizer.java:115)

at org.apache.hadoop.hive.ql.parse.HiveParser.createFunctionStatement(HiveParser.java:24437)

at org.apache.hadoop.hive.ql.parse.HiveParser.ddlStatement(HiveParser.java:3962)

at org.apache.hadoop.hive.ql.parse.HiveParser.execStatement(HiveParser.java:2382)

at org.apache.hadoop.hive.ql.parse.HiveParser.statement(HiveParser.java:1333)

at org.apache.hadoop.hive.ql.parse.ParseDriver.parse(ParseDriver.java:208)

at org.apache.hadoop.hive.ql.parse.ParseUtils.parse(ParseUtils.java:77)

at org.apache.hadoop.hive.ql.parse.ParseUtils.parse(ParseUtils.java:70)

at org.apache.hadoop.hive.ql.Driver.compile(Driver.java:468)

at org.apache.hadoop.hive.ql.Driver.compileInternal(Driver.java:1317)

at org.apache.hadoop.hive.ql.Driver.runInternal(Driver.java:1457)

at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1237)

at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1227)

at org.apache.hadoop.hive.cli.CliDriver.processLocalCmd(CliDriver.java:233)

at org.apache.hadoop.hive.cli.CliDriver.processCmd(CliDriver.java:184)

at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:403)

at org.apache.hadoop.hive.cli.CliDriver.executeDriver(CliDriver.java:821)

at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:759)

at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:686)

at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)

at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

at java.lang.reflect.Method.invoke(Method.java:498)

at org.apache.hadoop.util.RunJar.run(RunJar.java:226)

at org.apache.hadoop.util.RunJar.main(RunJar.java:141)

FAILED: ParseException line 1:39 mismatched input 'upperCase' expecting StringLiteral near 'as' in create function statement

必须带上全路径,也就是类的包路径:

hive> create temporary function upperCase as "hive.function.upperCase" ;

OK

Time taken: 0.013 seconds

hive> select upperCase(nameobject) as name_obj from tblobj2 limit 2 ;

FAILED: SemanticException [Error 10014]: Line 1:7 Wrong arguments 'nameobject': No matching method for class hive.function.upperCase with (string). Possible choices: _FUNC_(struct<>)

修改为以下的 Java 代码:

package hive.function;

import org.apache.hadoop.hive.ql.exec.UDF ;

import org.apache.hadoop.io.Text ;

public final class upperCase extends UDF{

public Text evaluate(final Text s) {

if(s==null) {return null ;}

return new Text(s.toString().toUpperCase());

}

public String evaluate( String s) {

if(s==null) {return null ;}

return new String(s.toString().toUpperCase());

}

}

再执行之前的步骤:

hive> select fnUpper2(nameobject) as nameobj from tblobj2 limit 2 ;

OK

PLAN_PERSIST_QUERY

NOTIFICATION_SEQUENCE

Time taken: 0.13 seconds, Fetched: 2 row(s)

hive> select nameobject from tblobj2 limit 2 ;

OK

plan_persist_query

NOTIFICATION_SEQUENCE

Time taken: 0.114 seconds, Fetched: 2 row(s)

hive>

以上我们顺利的利用 Java 写了一个函数供 Hive 调用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 写好Hive UDF自定义函数需要完成以下步骤:1、定义UDF函数类,继承org.apache.hadoop.hive.ql.exec.UDF类;2、重写evaluate()方法,实现UDF函数的功能;3、将UDF函数编译成jar包;4、将jar包上传到Hive的客户端机器上;5、使用add jar语句将UDF函数加载到Hive中;6、使用create temporary function语句注册UDF函数;7、使用UDF函数。 ### 回答2: JavaHive UDF(User-Defined Function,用户自定义函数)是一种用于扩展Hive功能的方法。当Hive内置函数无法满足特定的需求时,可以使用Java编写自定义函数来处理数据。 编写Hive UDF的第一步是创建一个Java类,该类需要继承Hive提供的UDF基类,并重写evaluate()方法。evaluate()方法是自定义函数的核心逻辑,它会对每条输入数据进行处理,并返回结果。 在evaluate()方法中,可以利用Java的强大功能实现自定义的逻辑。例如,可以使用字符串处理函数、数学函数、日期函数等来处理输入的数据。还可以使用条件语句、循环语句等控制结构来实现复杂的业务逻辑。 在编写完自定义函数Java代码后,需要进行编译,并将生成的jar包上传到Hive的classpath中。为了在Hive中调用自定义函数,需要使用CREATE FUNCTION语句来注册函数。在CREATE FUNCTION语句中,需要指定函数的名称、参数类型和返回类型,并指定要调用的Java类和方法。 在Hive中调用自定义函数时,可以像调用内置函数一样使用它。例如,可以将自定义函数应用于SELECT语句的字段中,以对数据进行处理和转换。 使用自定义函数可以使Hive具有更强大的功能,使其能够满足特定的业务需求。通过Java编写UDF,我们可以在Hive中使用自己熟悉和喜欢的编程语言来实现复杂的逻辑和算法。这为数据处理和分析提供了更多的可能性,使Hive成为一个强大且灵活的数据处理工具。 ### 回答3: JavaHive UDF(User-Defined Function)自定义函数需要遵循一定的步骤和规范。下面是一个简单示例来说明如何编写Java代码来实现自定义Hive函数。 首先,创建一个Java类并命名为CustomFunction。该类需要继承org.apache.hadoop.hive.ql.exec.UDF类,实现evaluate方法。 ```java import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text; public class CustomFunction extends UDF { public Text evaluate(Text input) { if (input == null) { return null; } String value = input.toString(); // 在这里编写自定义函数的逻辑 String result = value + " processed"; return new Text(result); } } ``` 接下来,编译Java代码并创建一个JAR文件。可以使用Maven或者手动编译代码。 在Hive中,使用CREATE FUNCTION语句来注册自定义函数。假设将JAR文件命名为custom-function.jar,可以使用以下语句注册: ```sql CREATE FUNCTION custom_function AS 'com.example.CustomFunction' USING JAR 'hdfs:///path/to/custom-function.jar'; ``` 通过以上语句,注册了名为custom_function的自定义函数,并指定了自定义函数类的完全限定名以及JAR文件的位置。 最后,在Hive中使用自定义函数。例如,可以在SELECT语句中调用自定义函数: ```sql SELECT custom_function(column_name) FROM table_name; ``` 以上代码通过custom_function函数对column_name列中的值进行处理,并返回处理后的结果。 这是一个简单的示例来解释如何使用Java编写Hive UDF自定义函数。实际上,根据具体的需求,可能需要更复杂的逻辑和参数。编写自定义函数需要理解Hive的数据类型和函数接口,并根据需要进行相应的实现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值