Hive的SQL可以通过用户定义的函数(UDF),用户定义的聚合(UDAF)和用户定义的表函数(UDTF)进行扩展。
当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF)。
UDF、UDAF、UDTF的区别:
UDF(User-Defined-Function)一进一出
UDAF(User-Defined Aggregation Funcation)聚集函数,多进一出
UDTF(User-Defined Table-Generating Functions)一进多出,如lateral view explore()
用户自定义函数(user defined function),针对单条记录。编写一个UDF,需要继承UDF类,并实现evaluate()函数。在查询执行过程中,查询中对应的每个应用到这个函数的地方都会对这个类进行实例化。对于每行输入都会调用到evaluate()函数。而evaluate()函数处理的值会返回给Hive。同时用户是可以重载evaluate方法的。Hive会像Java的方法重载一样,自动选择匹配的方法.
一、应用案例
1)全角转半角
packagecom.sjck.hive.udf;importorg.apache.commons.lang.StringUtils;importorg.apache.hadoop.hive.ql.exec.UDF;/*** 全角转半角
*@authorAdministrator
**/
public class ToSingleByte extendsUDF {public staticString evaluate(String val) {if(StringUtils.isNotBlank(val)){char c[] =val.toCharArray();for (int i = 0; i < c.length; i++) {if (c[i] == '\u3000') {
c[i]= ' ';
}else if (c[i] > '\uFF00' && c[i] < '\uFF5F') {
c[i]= (char) (c[i] - 65248);
}
}
String returnString= newString(c);returnreturnString;
}return "";
}
}
View Code
2)身份证信息验证
packagecom.sjck.hive.udf.util;importjava.text.ParseException;importjava.text.SimpleDateFormat;importjava.util.Calendar;importjava.util.Date;importorg.slf4j.Logger;importorg.slf4j.LoggerFactory;/***
* 身份证合法性校验
*
*
*
* --15位身份证号码:第7、8位为出生年份(两位数),第9、10位为出生月份,第11、12位代表出生日期,第15位代表性别,奇数为男,偶数为女。
* --18位身份证号码:第7、8、9、10位为出生年份(四位数),第11、第12位为出生月份,第13、14位代表出生日期,第17位代表性别,奇数为男,偶数为女。
* 最后一位为校验位
*
*
*@author313921*/
public classIdCardUtil {private static Logger logger = LoggerFactory.getLogger(IdCardUtil.class);/***
* 省、直辖市代码表:
* 11 : 北京 12 : 天津 13 : 河北 14 : 山西 15 : 内蒙古
* 21 : 辽宁 22 : 吉林 23 : 黑龙江 31 : 上海 32 : 江苏
* 33 : 浙江 34 : 安徽 35 : 福建 36 : 江西 37 : 山东
* 41 : 河南 42 : 湖北 43 : 湖南 44 : 广东 45 : 广西 46 : 海南
* 50 : 重庆 51 : 四川 52 : 贵州 53 : 云南 54 : 西藏
* 61 : 陕西 62 : 甘肃 63 : 青海 64 : 宁夏 65 : 新疆
* 71 : 台湾
* 81 : 香港 82 : 澳门
* 91 : 国外
*
*/private static S