Hive自身查询语言HQL拥有丰富的函数,能满足大部分的统计分析需求,但遇到特殊需求时,还是须要自己写UDF实现。UDF是User Defined Function的简写,意思是用户自定义函数。本文主要介绍如何在Ambari WEB UI上上传及使用UDF,至于如何编写UDF可以参考这篇文章 guide-to-writing-hive-udfs,相应的代码在hive-extension-examples。下面进入正题。
- 在Files View上传jar包到hdfs文件目录下
- 在Hive View添加udf
单击New UDF,在Select File Resource下拉框里选择Add new item,填写相应的udf信息并保存 - Hive View中加载udf并使用
- python 编写的udf
和以上加载jar包的步骤类似,只是改成把python文件上传到对应的hdfs目录,然后在Hive View里面加载即可。