最近项目用到了hive,需要从mysql中读取一些数据用于hive计算,所以进行了各种百度查询,然后又处理了一些坑问题,最终得到了一个实际可以运行的UDF,其中比较坑的就是依赖包的问题,所以这边记录下
首先hive永久UDF很简单,当然目前百度上能查到的都是临时UDF,旧版本的Hive要添加永久函数需要改hive源代码编译然后发布替换package,新版本的hive已经有比较简单的添加永久UDF的方式,你所需要做的就是以下几步:
1、package你的UDF函数所在的java项目
2、将打包后的package上传至hive能识别的目录,可以是hdfs,也可以是hive所在服务器路径
3、通过hive shell连接hive,然后输入指令"create function 自定义函数名 as '你的自定义函数package路径' using jar '你的package所在物理路径'; "
然后你就可以通过select 自定义函数名(参数) 的方式进行测试了
因为我们实际用的mysql包是6.x版本,而hive自带的mysql包是5.x版本,所以测试时报包找不到问题,解决方法也很简单,将对应的包上传至hive/lib目录下即可(当然并不是所有包都能这么解决,比如为了考虑性能,在UDF中使用的Ehcache就不知道为什么直接错误跳出了函数,但报的问题又不是缺少包,后来没办法自己简单写了个cache)
当然还有没能解决的问题,就是外部资源文件的问题,如果将资源文件打包在package里面,那就跟硬编码没太大区别,而放在外部的话,测试下来add files也不行,网上看到别人的做法往往也是将配置通过udf函数来传入……
最后再附加几个项目中用到的日期相关的自定义函数,为了减少依赖包问题,所有方法都只用了java基础包
public class WeeksFunc extends UDF {
/**
* 获取指定日期所在周为当年内的第几周,以周一为每周的第一天(注意如果最后一周跨年,java默认将最后那几天归入下一年的第一周)
* @param formats 如果不传参数,则默认以当天为基准,否则format[0]为日期字符串,format[1]为日期格式,默认为yyyy-MM-dd HH:mm:ss
* @return 年周格式,例如201740,代表2017年第40周,如果format.parse失败,则返回-1
*/
public int evaluate(String... formats) {
Calendar calendar = Calendar.getInstance();
calendar.setFirstDayOfWeek(Calendar.MONDAY);
try {
if (formats.length > 0) {
SimpleDateFormat formatter = new SimpleDateFormat(formats.length > 1 ? formats[1] : "yyyy-MM-dd HH:mm:ss");
Date dt = formatter.parse(formats[0]);
calendar.setTime(dt);
}
} catch (ParseException e) {
e.printStackTrace();
return -1;
}
int year = calendar.get(Calendar.YEAR);
int weeks = calendar.get(Calendar.WEEK_OF_YEAR);
if (calendar.get(Calendar.MONTH) > 1 && weeks <= 1) {
year += 1;
}
return year * 100 + weeks;
}
}
MonthsFunc用于获取指定日期为日期所在年的第几月
public class MonthsFunc extends UDF {
/**
* 获取指定日期所在月为当年内的第几月
* @param formats 如果不传参数,则默认以当天为基准,否则format[0]为日期字符串,format[1]为日期格式,默认为yyyy-MM-dd HH:mm:ss
* @return 年月格式,例如201701,代表2017年1月,如果format.parse失败,则返回-1
*/
public int evaluate(String... formats) {
Calendar calendar = Calendar.getInstance();
try {
if (formats.length > 0) {
SimpleDateFormat formatter = new SimpleDateFormat(formats.length > 1 ? formats[1] : "yyyy-MM-dd HH:mm:ss");
Date dt = formatter.parse(formats[0]);
calendar.setTime(dt);
}
} catch (ParseException e) {
e.printStackTrace();
return -1;
}
int year = calendar.get(Calendar.YEAR);
int month = calendar.get(Calendar.MONTH);
return year * 100 + month + 1;
}
}
DayDiffFunc用于获取与当日指定差异天数的日期
public class DayDiffFunc extends UDF {
/**
* 获取与当前日期比较差异天数的日期
* @param diffDays 差异天数,负值表示向前取的天数,0表示当天,正值表示向后取的天数
* @param formats 如果不传参数,则默认返回的字符串格式为yyyy-MM-dd,否则返回format[0]指定的格式
* @return format指定格式的日期字符串
*/
public String evaluate(int diffDays, String... formats) {
String format = "yyyy-MM-dd";
if (formats != null && formats.length > 0 && formats[0] != null) {
format = formats[0];
}
SimpleDateFormat formatter = new SimpleDateFormat(format);
Calendar cal = Calendar.getInstance();
cal.add(Calendar.DAY_OF_MONTH, diffDays);
return formatter.format(cal.getTime());
}
}
WeekDiffFunc获取与当前日期所在周比较差异周数内指定周内第几天的日期
public class WeekDiffFunc extends UDF {
/**
* 获取与当前日期所在周比较差异周数内指定周内第几天的日期
* @param diffWeeks 差异周数,负值表示向前取的周数,0表示当周,正值表示向后取的周数
* @param dayInWeek 获取该周内的第几天,以周一为每周的第一天
* @param formats 如果不传参数,则默认返回的字符串格式为yyyy-MM-dd,否则返回format[0]指定的格式
* @return format指定格式的日期字符串
*/
public String evaluate(int diffWeeks, int dayInWeek, String... formats) {
String format = "yyyy-MM-dd";
if (formats != null && formats.length > 0 && formats[0] != null) {
format = formats[0];
}
SimpleDateFormat formatter = new SimpleDateFormat(format);
Calendar cal = Calendar.getInstance();
cal.setFirstDayOfWeek(Calendar.MONDAY);
cal.add(Calendar.WEEK_OF_YEAR, diffWeeks);
cal.set(Calendar.DAY_OF_WEEK, cal.getFirstDayOfWeek() + dayInWeek - 1);
return formatter.format(cal.getTime());
}
}
MonthDiffFunc获取与当前日期所在月比较差异月数内指定月内第几天的日期
public class MonthDiffFunc extends UDF {
/**
* 获取与当前日期所在月比较差异月数内指定月内第几天的日期
* @param diffMonths 差异月数,负值表示向前取的月数,0表示当月,正值表示向后取的月数
* @param dayInMonth 获取该月内的第几天,注意因为每月天数存在差异,所以假设当月为9月,传入31时,取到的是10月1号
* @param formats 如果不传参数,则默认返回的字符串格式为yyyy-MM-dd,否则返回format[0]指定的格式
* @return format指定格式的日期字符串
*/
public String evaluate(int diffMonths, int dayInMonth, String... formats) {
String format = "yyyy-MM-dd";
if (formats != null && formats.length > 0 && formats[0] != null) {
format = formats[0];
}
SimpleDateFormat formatter = new SimpleDateFormat(format);
Calendar cal = Calendar.getInstance();
cal.add(Calendar.MONTH, diffMonths);
cal.set(Calendar.DATE, dayInMonth);
return formatter.format(cal.getTime());
}
}