Hive永久UDF依赖包问题以及几个日期相关的自定义函数

最近项目用到了hive,需要从mysql中读取一些数据用于hive计算,所以进行了各种百度查询,然后又处理了一些坑问题,最终得到了一个实际可以运行的UDF,其中比较坑的就是依赖包的问题,所以这边记录下

首先hive永久UDF很简单,当然目前百度上能查到的都是临时UDF,旧版本的Hive要添加永久函数需要改hive源代码编译然后发布替换package,新版本的hive已经有比较简单的添加永久UDF的方式,你所需要做的就是以下几步:

1、package你的UDF函数所在的java项目

2、将打包后的package上传至hive能识别的目录,可以是hdfs,也可以是hive所在服务器路径

3、通过hive shell连接hive,然后输入指令"create function 自定义函数名 as '你的自定义函数package路径' using jar '你的package所在物理路径'; "

然后你就可以通过select 自定义函数名(参数) 的方式进行测试了

因为我们实际用的mysql包是6.x版本,而hive自带的mysql包是5.x版本,所以测试时报包找不到问题,解决方法也很简单,将对应的包上传至hive/lib目录下即可(当然并不是所有包都能这么解决,比如为了考虑性能,在UDF中使用的Ehcache就不知道为什么直接错误跳出了函数,但报的问题又不是缺少包,后来没办法自己简单写了个cache)

当然还有没能解决的问题,就是外部资源文件的问题,如果将资源文件打包在package里面,那就跟硬编码没太大区别,而放在外部的话,测试下来add files也不行,网上看到别人的做法往往也是将配置通过udf函数来传入……

最后再附加几个项目中用到的日期相关的自定义函数,为了减少依赖包问题,所有方法都只用了java基础包

WeeksFunc用于获取指定日期为日期所在年的第几周
public class WeeksFunc extends UDF {
    /**
     * 获取指定日期所在周为当年内的第几周,以周一为每周的第一天(注意如果最后一周跨年,java默认将最后那几天归入下一年的第一周)
     * @param formats 如果不传参数,则默认以当天为基准,否则format[0]为日期字符串,format[1]为日期格式,默认为yyyy-MM-dd HH:mm:ss
     * @return 年周格式,例如201740,代表2017年第40周,如果format.parse失败,则返回-1
     */
    public int evaluate(String... formats) {
        Calendar calendar = Calendar.getInstance();
        calendar.setFirstDayOfWeek(Calendar.MONDAY);
        try {
            if (formats.length > 0) {
                SimpleDateFormat formatter = new SimpleDateFormat(formats.length > 1 ? formats[1] : "yyyy-MM-dd HH:mm:ss");
                Date dt = formatter.parse(formats[0]);
                calendar.setTime(dt);
            }
        } catch (ParseException e) {
            e.printStackTrace();
            return -1;
        }
        int year = calendar.get(Calendar.YEAR);
        int weeks = calendar.get(Calendar.WEEK_OF_YEAR);
        if (calendar.get(Calendar.MONTH) > 1 && weeks <= 1) {
            year += 1;
        }
        return year * 100 + weeks;
    }
}
MonthsFunc用于获取指定日期为日期所在年的第几月
public class MonthsFunc extends UDF {
    /**
     * 获取指定日期所在月为当年内的第几月
     * @param formats 如果不传参数,则默认以当天为基准,否则format[0]为日期字符串,format[1]为日期格式,默认为yyyy-MM-dd HH:mm:ss
     * @return 年月格式,例如201701,代表2017年1月,如果format.parse失败,则返回-1
     */
    public int evaluate(String... formats) {
        Calendar calendar = Calendar.getInstance();
        try {
            if (formats.length > 0) {
            SimpleDateFormat formatter = new SimpleDateFormat(formats.length > 1 ? formats[1] : "yyyy-MM-dd HH:mm:ss");
                Date dt = formatter.parse(formats[0]);
                calendar.setTime(dt);
            }
        } catch (ParseException e) {
            e.printStackTrace();
            return -1;
        }
        int year = calendar.get(Calendar.YEAR);
        int month = calendar.get(Calendar.MONTH);
        return year * 100 + month + 1;
    }
}
DayDiffFunc用于获取与当日指定差异天数的日期
public class DayDiffFunc extends UDF {
    /**
     * 获取与当前日期比较差异天数的日期
     * @param diffDays 差异天数,负值表示向前取的天数,0表示当天,正值表示向后取的天数
     * @param formats 如果不传参数,则默认返回的字符串格式为yyyy-MM-dd,否则返回format[0]指定的格式
     * @return format指定格式的日期字符串
     */
    public String evaluate(int diffDays, String... formats) {
        String format = "yyyy-MM-dd";
        if (formats != null && formats.length > 0 && formats[0] != null) {
            format = formats[0];
        }
        SimpleDateFormat formatter = new SimpleDateFormat(format);
        Calendar cal = Calendar.getInstance();
        cal.add(Calendar.DAY_OF_MONTH, diffDays);
        return formatter.format(cal.getTime());
    }
}
WeekDiffFunc获取与当前日期所在周比较差异周数内指定周内第几天的日期
public class WeekDiffFunc extends UDF {
    /**
     * 获取与当前日期所在周比较差异周数内指定周内第几天的日期
     * @param diffWeeks 差异周数,负值表示向前取的周数,0表示当周,正值表示向后取的周数
     * @param dayInWeek 获取该周内的第几天,以周一为每周的第一天
     * @param formats 如果不传参数,则默认返回的字符串格式为yyyy-MM-dd,否则返回format[0]指定的格式
     * @return format指定格式的日期字符串
     */
    public String evaluate(int diffWeeks, int dayInWeek, String... formats) {
        String format = "yyyy-MM-dd";
        if (formats != null && formats.length > 0 && formats[0] != null) {
            format = formats[0];
        }
        SimpleDateFormat formatter = new SimpleDateFormat(format);
        Calendar cal = Calendar.getInstance();
        cal.setFirstDayOfWeek(Calendar.MONDAY);
        cal.add(Calendar.WEEK_OF_YEAR, diffWeeks);
        cal.set(Calendar.DAY_OF_WEEK, cal.getFirstDayOfWeek() + dayInWeek - 1);
        return formatter.format(cal.getTime());
    }
}
MonthDiffFunc获取与当前日期所在月比较差异月数内指定月内第几天的日期
public class MonthDiffFunc extends UDF {
    /**
     * 获取与当前日期所在月比较差异月数内指定月内第几天的日期
     * @param diffMonths 差异月数,负值表示向前取的月数,0表示当月,正值表示向后取的月数
     * @param dayInMonth 获取该月内的第几天,注意因为每月天数存在差异,所以假设当月为9月,传入31时,取到的是10月1号
     * @param formats 如果不传参数,则默认返回的字符串格式为yyyy-MM-dd,否则返回format[0]指定的格式
     * @return format指定格式的日期字符串
     */
    public String evaluate(int diffMonths, int dayInMonth, String... formats) {
        String format = "yyyy-MM-dd";
        if (formats != null && formats.length > 0 && formats[0] != null) {
            format = formats[0];
        }
        SimpleDateFormat formatter = new SimpleDateFormat(format);
        Calendar cal = Calendar.getInstance();
        cal.add(Calendar.MONTH, diffMonths);
        cal.set(Calendar.DATE, dayInMonth);
        return formatter.format(cal.getTime());
    }
}

阅读更多
版权声明:本文为starfd原创文章,转载请标明出处。 https://blog.csdn.net/starfd/article/details/78082571
文章标签: hive udf
个人分类: Java Hive
上一篇quartz.net配置说明
下一篇Hive执行job时return code 2排查
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭