HIVE 自定义UDF并上传
最近在做一些ABtest的 统计分析时,由于用户分组一般采用CRC32,或者MD5加密,然后进行均匀分组。采取这些方式分组时,能很好的随机分组,但是给后期的统计带来不便,一般要先拿device_id,然后写一个脚本,不太方便,尤其当数据量很大时,跑得十分缓慢。
HIVE的自定义UDF开发,能很好的解决这个问题。如下是自定义UDF开发及永久上传的方法。
一、所需环境:
eclipse+maven,使用到的依赖如下:
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-exec</artifactId>
<version>0.13.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-core</artifactId>
<version