Hive永久UDF依赖包问题以及几个日期相关的自定义函数

原创 2017年09月25日 10:27:26

最近项目用到了hive,需要从mysql中读取一些数据用于hive计算,所以进行了各种百度查询,然后又处理了一些坑问题,最终得到了一个实际可以运行的UDF,其中比较坑的就是依赖包的问题,所以这边记录下

首先hive永久UDF很简单,当然目前百度上能查到的都是临时UDF,旧版本的Hive要添加永久函数需要改hive源代码编译然后发布替换package,新版本的hive已经有比较简单的添加永久UDF的方式,你所需要做的就是以下几步:

1、package你的UDF函数所在的java项目

2、将打包后的package上传至hive能识别的目录,可以是hdfs,也可以是hive所在服务器路径

3、通过hive shell连接hive,然后输入指令"create function 自定义函数名 as '你的自定义函数package路径' using jar '你的package所在物理路径'; "

然后你就可以通过select 自定义函数名(参数) 的方式进行测试了

因为我们实际用的mysql包是6.x版本,而hive自带的mysql包是5.x版本,所以测试时报包找不到问题,解决方法也很简单,将对应的包上传至hive/lib目录下即可(当然并不是所有包都能这么解决,比如为了考虑性能,在UDF中使用的Ehcache就不知道为什么直接错误跳出了函数,但报的问题又不是缺少包,后来没办法自己简单写了个cache)

当然还有没能解决的问题,就是外部资源文件的问题,如果将资源文件打包在package里面,那就跟硬编码没太大区别,而放在外部的话,测试下来add files也不行,网上看到别人的做法往往也是将配置通过udf函数来传入……

最后再附加几个项目中用到的日期相关的自定义函数,为了减少依赖包问题,所有方法都只用了java基础包

WeeksFunc用于获取指定日期为日期所在年的第几周
public class WeeksFunc extends UDF {
    /**
     * 获取指定日期所在周为当年内的第几周,以周一为每周的第一天(注意如果最后一周跨年,java默认将最后那几天归入下一年的第一周)
     * @param formats 如果不传参数,则默认以当天为基准,否则format[0]为日期字符串,format[1]为日期格式,默认为yyyy-MM-dd HH:mm:ss
     * @return 年周格式,例如201740,代表2017年第40周,如果format.parse失败,则返回-1
     */
    public int evaluate(String... formats) {
        Calendar calendar = Calendar.getInstance();
        calendar.setFirstDayOfWeek(Calendar.MONDAY);
        try {
            if (formats.length > 0) {
                SimpleDateFormat formatter = new SimpleDateFormat(formats.length > 1 ? formats[1] : "yyyy-MM-dd HH:mm:ss");
                Date dt = formatter.parse(formats[0]);
                calendar.setTime(dt);
            }
        } catch (ParseException e) {
            e.printStackTrace();
            return -1;
        }
        int year = calendar.get(Calendar.YEAR);
        int weeks = calendar.get(Calendar.WEEK_OF_YEAR);
        if (calendar.get(Calendar.MONTH) > 1 && weeks <= 1) {
            year += 1;
        }
        return year * 100 + weeks;
    }
}
MonthsFunc用于获取指定日期为日期所在年的第几月
public class MonthsFunc extends UDF {
    /**
     * 获取指定日期所在月为当年内的第几月
     * @param formats 如果不传参数,则默认以当天为基准,否则format[0]为日期字符串,format[1]为日期格式,默认为yyyy-MM-dd HH:mm:ss
     * @return 年月格式,例如201701,代表2017年1月,如果format.parse失败,则返回-1
     */
    public int evaluate(String... formats) {
        Calendar calendar = Calendar.getInstance();
        try {
            if (formats.length > 0) {
            SimpleDateFormat formatter = new SimpleDateFormat(formats.length > 1 ? formats[1] : "yyyy-MM-dd HH:mm:ss");
                Date dt = formatter.parse(formats[0]);
                calendar.setTime(dt);
            }
        } catch (ParseException e) {
            e.printStackTrace();
            return -1;
        }
        int year = calendar.get(Calendar.YEAR);
        int month = calendar.get(Calendar.MONTH);
        return year * 100 + month + 1;
    }
}
DayDiffFunc用于获取与当日指定差异天数的日期
public class DayDiffFunc extends UDF {
    /**
     * 获取与当前日期比较差异天数的日期
     * @param diffDays 差异天数,负值表示向前取的天数,0表示当天,正值表示向后取的天数
     * @param formats 如果不传参数,则默认返回的字符串格式为yyyy-MM-dd,否则返回format[0]指定的格式
     * @return format指定格式的日期字符串
     */
    public String evaluate(int diffDays, String... formats) {
        String format = "yyyy-MM-dd";
        if (formats != null && formats.length > 0 && formats[0] != null) {
            format = formats[0];
        }
        SimpleDateFormat formatter = new SimpleDateFormat(format);
        Calendar cal = Calendar.getInstance();
        cal.add(Calendar.DAY_OF_MONTH, diffDays);
        return formatter.format(cal.getTime());
    }
}
WeekDiffFunc获取与当前日期所在周比较差异周数内指定周内第几天的日期
public class WeekDiffFunc extends UDF {
    /**
     * 获取与当前日期所在周比较差异周数内指定周内第几天的日期
     * @param diffWeeks 差异周数,负值表示向前取的周数,0表示当周,正值表示向后取的周数
     * @param dayInWeek 获取该周内的第几天,以周一为每周的第一天
     * @param formats 如果不传参数,则默认返回的字符串格式为yyyy-MM-dd,否则返回format[0]指定的格式
     * @return format指定格式的日期字符串
     */
    public String evaluate(int diffWeeks, int dayInWeek, String... formats) {
        String format = "yyyy-MM-dd";
        if (formats != null && formats.length > 0 && formats[0] != null) {
            format = formats[0];
        }
        SimpleDateFormat formatter = new SimpleDateFormat(format);
        Calendar cal = Calendar.getInstance();
        cal.setFirstDayOfWeek(Calendar.MONDAY);
        cal.add(Calendar.WEEK_OF_YEAR, diffWeeks);
        cal.set(Calendar.DAY_OF_WEEK, cal.getFirstDayOfWeek() + dayInWeek - 1);
        return formatter.format(cal.getTime());
    }
}
MonthDiffFunc获取与当前日期所在月比较差异月数内指定月内第几天的日期
public class MonthDiffFunc extends UDF {
    /**
     * 获取与当前日期所在月比较差异月数内指定月内第几天的日期
     * @param diffMonths 差异月数,负值表示向前取的月数,0表示当月,正值表示向后取的月数
     * @param dayInMonth 获取该月内的第几天,注意因为每月天数存在差异,所以假设当月为9月,传入31时,取到的是10月1号
     * @param formats 如果不传参数,则默认返回的字符串格式为yyyy-MM-dd,否则返回format[0]指定的格式
     * @return format指定格式的日期字符串
     */
    public String evaluate(int diffMonths, int dayInMonth, String... formats) {
        String format = "yyyy-MM-dd";
        if (formats != null && formats.length > 0 && formats[0] != null) {
            format = formats[0];
        }
        SimpleDateFormat formatter = new SimpleDateFormat(format);
        Calendar cal = Calendar.getInstance();
        cal.add(Calendar.MONTH, diffMonths);
        cal.set(Calendar.DATE, dayInMonth);
        return formatter.format(cal.getTime());
    }
}

版权声明:本文为starfd原创文章,未经博主允许不得转载。

Hive自定义UDF和聚合函数UDAF

Hive是一种构建在Hadoop上的数据仓库,Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce作业,是MapReduce更高层次的抽象,不用编写具体的MapReduce方法...
  • dxl342
  • dxl342
  • 2017年07月03日 15:20
  • 354

Hive UDF自定义函数编写小例子

感谢段海涛老师~ 先写一个java类,定义函数逻辑(静态代码块模拟字典) package club.drguo.hive; import java.util.HashMap; import org...
  • Dr_Guo
  • Dr_Guo
  • 2016年03月26日 22:03
  • 1662

自定义HIVE-UDF函数

一 新建JAVA项目 并添加 hive-exec-2.1.0.jar 和hadoop-common-2.7.3.jar hive-exec-2.1.0.jar 在HIVE安装目录的lib目录下hado...

Hive自定义函数(UDF、UDAF)

当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数。UDF用户自定义函数(user defined function)–针对单条记录。 创建函数流程 1、自定义一...

hive 自定义函数UDF,UDAF

自定义函数 在hive中,有时候一些内置的函数,和普通的查询操作已经满足不了我们要查询的要求,这时候可以自己写一些自定义函数来处理。自定义函数(user defined function =UDF)...

Hive中的用户自定义函数UDF

Hive中的自定义函数允许用户扩展HiveQL,是一个非常强大的功能。Hive中具有多种类型的用户自定义函数。show functions命令可以列举出当前Hive会话中的所加载进来的函数,包括内置的...
  • clamaa
  • clamaa
  • 2017年04月11日 09:52
  • 157

Hive 之 用户自定义函数 UDF UDAF UDTF

一 什么是UDF UDF是UserDefined Function 用户自定义函数的缩写。Hive中除了原生提供的一些函数之外,如果还不能满足我们当前需求,我们可以自定义函数。 除了UDF 之外,我们...

HIVE 自定义函数 UDF

Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。 一、背景:Hive是基于Hadoop中的MapReduce,提供H...

Hive学习之自定义函数(UDF)

在之前的学习,包括后面的实践和工作中,已经多次使用了Hive的内置函数,即有普通的函数,像cast、lower等,也有聚合函数,比如max,min等,除了这些内置函数,Hive还允许在内置函数不满足业...

hive自定义函数UDF

Hive自定义函数(UDF),可以帮助用户轻松实现在hql语句中展现自定义查询结果。 这里以一个简单的连接函数来实现用户自定义函数,假设表结构如下: 表中只有两个简单的字段,id和name。...
  • feinifi
  • feinifi
  • 2017年03月06日 22:39
  • 284
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hive永久UDF依赖包问题以及几个日期相关的自定义函数
举报原因:
原因补充:

(最多只允许输入30个字)