本篇UDF函数使用IntelliJ IDEA进行编写和打包,使用的是Java语言,数据使用上一篇博客“HDFS、Hive(Impala)读取本地文件到HDFS,再使用Hive(Impala)从HDFS读取文件进行建表”中已经放入hive中的数据进行查询展示。
创建一个maven项目,导入依赖包
<!-- 根据Linux系统上安装的的hadoop和hive版本,设置版本参数,不一定和我的一样 -->
<!-- hadoop版本查询 $ hadoop version -->
<!-- hive版本查询需要进入安装目录进行查看,我这里的安装目录是/usr/lib/hive,安装目录下的lib文件夹下有一个hive-common-1.1.0-cdh5.4.3.jar, 1.1.0-cdh5.4.3 即为hive版本号 -->
<properties>
<hadoop.version>2.6.0-cdh5.4.3</hadoop.version>
<hive.version>1.1.0-cdh5.4.3</hive.version>
</properties>
<repositories>
<repository>
<id>cloudera</id>
<url>http://repository.cloudera.com/artifactory/cloudera-repos</url>
</repository>
</repositories>
<dependencies>
<!-- 添加依赖组件,根据上方配置的版本参数和repository知识库下载