hive java 编程_Hive 编程专题之 - 自定义函数 Java 篇

最新推荐文章于 2022-07-29 15:10:37 发布

spRachel雷切爾

最新推荐文章于 2022-07-29 15:10:37 发布

阅读量213

点赞数

文章标签： hive java 编程

本文链接：https://blog.csdn.net/weixin_32046225/article/details/114117266

版权

Hive 函数，总体分成内建函数与自定义函数。

内建函数针对不同的数据类型有分成很多种，字符函数，数值函数，日期函数，转换函数等；

自定义函数与我们在传统商业数据库中遇到的编译函数一个概念。在 SQL Server 中，我们使用 c# 来编写一些内建函数不能解决的问题，比如正则，而 Oracle 中则使用 Java 编写的 Jar 来扩展函数。Hive 中的自定义函数与 Oracle 一样，都依赖 Jar. 意味着使用 Java 灵活的编写一些程序来处理内建函数达不到的功能。

1 常看所有内建和自建的函数

show functions ;

注意：Hive 2.3.3 内建函数 271 个

describe function fnGetDetail

describe function extend fnGetDetail

2 使用 java 自定义函数

使用 Java. Scala 都可以编写 Hive 使用的自定义函数。只是在选择编译工具的时候，有些讲究。Eclipse 和其他一些 Java 编辑工具都是可以用来生成 jar 的 IDE，将生成的 Jar 放到 HDFS 上， Hive 就能应用了。

3 使用 Java 来编写简单的 Hive 自定义函数

3.1 Eclipse 建立一个简单的 Maven 项目

3.2 引用特定的几个 Hive / Hadoop jar

虽说是为 Hive 定制的自定义函数类，但库引用不仅仅是从 Hive 的源代码中来，也有可能是从 Hadoop 的基类库中寻找。

3.3 一段简单的大写转换函数：

package hive.function;

import org.apache.hadoop.hive.ql.exec.UDF ;

import org.apache.hadoop.io.Text ;

public class upperCase extends UDF{

public Text evaluate(final javax.xml.soap.Text s) {

if(s==null) {return null ;}

return new Text(s.toString().toUpperCase());

}

3.4 导出 eclipse, 导入 Hive class path:

hive> add jar /home/SparkAdmin/HiveFunctions/upperCase.jar

> ;

Added [/home/SparkAdmin/HiveFunctions/upperCase.jar] to class path

Added resources: [/home/SparkAdmin/HiveFunctions/upperCase.jar]

hive>

3.5 定义 Hive 函数

如果仅仅用 jar 中的类名来创建函数，是不够的：

hive> create temporary function upperCase as upperCase ;

MismatchedTokenException(24!=352)

at org.antlr.runtime.BaseRecognizer.recoverFromMismatchedToken(BaseRecognizer.java:617)

at org.antlr.runtime.BaseRecognizer.match(BaseRecognizer.java:115)

at org.apache.hadoop.hive.ql.parse.HiveParser.createFunctionStatement(HiveParser.java:24437)

at org.apache.hadoop.hive.ql.parse.HiveParser.ddlStatement(HiveParser.java:3962)

at org.apache.hadoop.hive.ql.parse.HiveParser.execStatement(HiveParser.java:2382)

at org.apache.hadoop.hive.ql.parse.HiveParser.statement(HiveParser.java:1333)

at org.apache.hadoop.hive.ql.parse.ParseDriver.parse(ParseDriver.java:208)

at org.apache.hadoop.hive.ql.parse.ParseUtils.parse(ParseUtils.java:77)

at org.apache.hadoop.hive.ql.parse.ParseUtils.parse(ParseUtils.java:70)

at org.apache.hadoop.hive.ql.Driver.compile(Driver.java:468)

at org.apache.hadoop.hive.ql.Driver.compileInternal(Driver.java:1317)

at org.apache.hadoop.hive.ql.Driver.runInternal(Driver.java:1457)

at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1237)

at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1227)

at org.apache.hadoop.hive.cli.CliDriver.processLocalCmd(CliDriver.java:233)

at org.apache.hadoop.hive.cli.CliDriver.processCmd(CliDriver.java:184)

at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:403)

at org.apache.hadoop.hive.cli.CliDriver.executeDriver(CliDriver.java:821)

at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:759)

at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:686)

at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)

at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

at java.lang.reflect.Method.invoke(Method.java:498)

at org.apache.hadoop.util.RunJar.run(RunJar.java:226)

at org.apache.hadoop.util.RunJar.main(RunJar.java:141)

FAILED: ParseException line 1:39 mismatched input 'upperCase' expecting StringLiteral near 'as' in create function statement

必须带上全路径，也就是类的包路径：

hive> create temporary function upperCase as "hive.function.upperCase" ;

Time taken: 0.013 seconds

hive> select upperCase(nameobject) as name_obj from tblobj2 limit 2 ;

FAILED: SemanticException [Error 10014]: Line 1:7 Wrong arguments 'nameobject': No matching method for class hive.function.upperCase with (string). Possible choices: _FUNC_(struct<>)

修改为以下的 Java 代码：

package hive.function;

import org.apache.hadoop.hive.ql.exec.UDF ;

import org.apache.hadoop.io.Text ;

public final class upperCase extends UDF{

public Text evaluate(final Text s) {

if(s==null) {return null ;}

return new Text(s.toString().toUpperCase());

}

public String evaluate( String s) {

if(s==null) {return null ;}

return new String(s.toString().toUpperCase());

}

再执行之前的步骤：

hive> select fnUpper2(nameobject) as nameobj from tblobj2 limit 2 ;

PLAN_PERSIST_QUERY

NOTIFICATION_SEQUENCE

Time taken: 0.13 seconds, Fetched: 2 row(s)

hive> select nameobject from tblobj2 limit 2 ;

plan_persist_query

NOTIFICATION_SEQUENCE

Time taken: 0.114 seconds, Fetched: 2 row(s)

hive>

以上我们顺利的利用 Java 写了一个函数供 Hive 调用。

spRachel雷切爾

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive java 编程_Hive 编程专题之 - 自定义函数 Java 篇

Hive 函数，总体分成内建函数与自定义函数。内建函数针对不同的数据类型有分成很多种，字符函数，数值函数，日期函数，转换函数等；自定义函数与我们在传统商业数据库中遇到的编译函数一个概念。在 SQL Server 中，我们使用 c# 来编写一些内建函数不能解决的问题，比如正则，而 Oracle 中则使用 Java 编写的 Jar 来扩展函数。Hive 中的自定义函数与 Oracle 一样，都依赖 J...
复制链接

扫一扫