HIVE以及OOZIE添加第三方JAR包的方法

Hive UDF与第三方Jar包配置

最新推荐文章于 2024-03-25 07:11:28 发布

原创最新推荐文章于 2024-03-25 07:11:28 发布 · 1.6w 阅读

5 ·

CC 4.0 BY-SA版权

本文为博主原创文章，未经博主允许不得转载。

文章标签：

#hive #oozie #jar #第三方 #external

大数据专题专栏收录该内容

184 篇文章

订阅专栏

本文详细介绍了在Hive中配置用户定义函数(UDF)及第三方Jar包的具体方法，包括hive.aux.jars.path配置项的正确使用方式、通过create function注册UDF的步骤以及在Oozie工作流中指定第三方Jar包的方法。

本文原文出处: http://blog.csdn.net/bluishglc/article/details/46005269 严禁任何形式的转载，否则将委托CSDN官方维护权益！

以下为2019-2-12日的更新：

非常确定的是：hive.aux.jars.path确实不支持hdfs:///路径！如果配置了hdfs路径，很可能会引起错误，例如：使用sqoop向hive写数据时就会出错，且没有任何错误提示！所以一定不要使用hdfs路径
如果是要注册UDF，可以不使用hive.aux.jars.path，因为hive.aux.jars.path只支持本地文件路径，需要手动部署jar包到所有节点，所以，最简洁的方式是通过create function xxxx using jar xxxx, 其中jar的路径支持hdfs，这样就会使得注册变得异常简单，以下是一个示例：
create function my_fun as ‘com.github.xxx.MyFun’ using jar ‘hdfs:///xxxx.jar’;
这样注册的funtion是全局可见的，如果不想扩大到这样的作用域，可以追加temporary修饰，并在用的的sql前追加声明就可以了，例如：

create temporary function my_fun as ‘com.github.xxx.MyFun’ using jar ‘hdfs:///xxxx.jar’;
select my_fun(t.a) from mytable t where …

但是使用create function xxxx using jar xxxx有一个限制，那就是当UDF中依赖到第三方的jar包时，就会面临两种选择：

-　要么将有的依赖包打成一个jar

要么使用hive.aux.jars.path配置一个lib目录，将所有的jar放进去

很多时候，我们需要在HIVE中引入第三方jar包或者是自己编写的“UDF”jar包。在HIVE中，涉及指定外部jar包的配置有两个地方：

hive-site.xml中的配置项“hive.aux.jars.path”
环境变量：HIVE_AUX_JARS_PATH

从目前的实验可以确定的有两点:

hive.aux.jars.path配置项对于hive server有效，但是是不会作用到hive shell.也就是说即使你在hive节点上配置了这一项，但是对于hive shell来说是无效的。
这里给一个配置hive.aux.jars.path的例子，注意两点：一，目前只支持file://也就是本地文件，暂不支持HDFS。二，多个文件使用逗号分隔。

    <property>
      <name>hive.aux.jars.path</name>
      <value>file:///usr/lib/hive-aux-jars/elasticsearch-hadoop-2.1.0.Beta4.jar,file:///usr/lib/hive-aux-jars/csv-serde-0.9.1.jar</value>
    </property>

环境变量HIVE_AUX_JARS_PATH对hive shell有效。

对于环境变量HIVE_AUX_JARS_PATH，要特别说明一下，通常我们说设置一下这个变量就可以引入相应的jar，但是在当前版本的hive下，这个变量的设值有些问题，让我们来看一下启动hive的shell脚本hive-env.sh，它里面有这样一段：

# Folder containing extra libraries required for hive compilation/execution can be controlled by:
if [ "${HIVE_AUX_JARS_PATH}" != "" ]; then
  export HIVE_AUX_JARS_PATH=${HIVE_AUX_JARS_PATH}
elif [ -d "/usr/hdp/current/hive-webhcat/share/hcatalog" ]; then
  export HIVE_AUX_JARS_PATH=/usr/hdp/current/hive-webhcat/share/hcatalog
fi

这是段脚本比较糟糕，因为一旦我们给HIVE_AUX_JARS_PATH设值，则/usr/hdp/current/hive-webhcat/share/hcatalog就会被忽略掉。这显然看起来很怪异，实际上hive只能读取一个HIVE_AUX_JARS_PATH，也就是上面这段怪异代码的主要原因。所以，一个比较好的做法是，我们可以在一个地方集中放置我们的共享jar包，然后在/usr/hdp/current/hive-webhcat/share/hcatalog下面建立一相应的软连接就可以，比如，我们把jar统一放在/usr/lib/share-lib下，然后这样建立软连接：

sudo -u hive ln -s /usr/lib/share-lib/elasticsearch-hadoop-2.1.0.Beta4.jar /usr/hdp/current/hive-webhcat/share/hcatalog/elasticsearch-hadoop-2.1.0.Beta4.jar

##OOZIE中如何指定第三方JAR包

如果你的依赖到第三方JAR的HIVE脚本本身又是一个OOZIE工作流中的一环，那么我们的工作还没有完，如果你在OOZIE配置并引入第三方JAR，那么你的工作流还是会失败。对于OOZIE,引入第三方JAR的方法是oozie-site.xml中的oozie.service.WorkflowAppService.system.libpath，我们需要配置这个选项，并把相应的JAR包上传到这个目录下。注意，这也是一个HDFS的路径！