hive 转拼音udf_Hive 自定义UDF函数

最新推荐文章于 2023-04-16 00:00:00 发布

大机灵聪明绝顶

最新推荐文章于 2023-04-16 00:00:00 发布

阅读量441

点赞数

文章标签： hive 转拼音udf

本文链接：https://blog.csdn.net/weixin_34580002/article/details/112897048

版权

本文介绍了如何在Hive中扩展用户自定义函数(UDF)，包括全角转半角和身份证合法性验证的示例。通过自定义UDF，可以解决内置函数无法满足的业务需求。文章详细讲解了UDF的实现原理，并提供了具体的Java代码实现。同时，还探讨了将UDF添加到Hive的不同方法，包括临时和永久函数的创建，以及HDFS上的jar包管理。

摘要由CSDN通过智能技术生成

Hive的SQL可以通过用户定义的函数(UDF)，用户定义的聚合(UDAF)和用户定义的表函数(UDTF)进行扩展。

当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数(UDF)。

UDF、UDAF、UDTF的区别：

UDF(User-Defined-Function)一进一出

UDAF(User-Defined Aggregation Funcation)聚集函数，多进一出

UDTF(User-Defined Table-Generating Functions)一进多出，如lateral view explore()

用户自定义函数(user defined function)，针对单条记录。编写一个UDF，需要继承UDF类，并实现evaluate()函数。在查询执行过程中，查询中对应的每个应用到这个函数的地方都会对这个类进行实例化。对于每行输入都会调用到evaluate()函数。而evaluate()函数处理的值会返回给Hive。同时用户是可以重载evaluate方法的。Hive会像Java的方法重载一样，自动选择匹配的方法.

一、应用案例

1)全角转半角

packagecom.sjck.hive.udf;importorg.apache.commons.lang.StringUtils;importorg.apache.hadoop.hive.ql.exec.UDF;/*** 全角转半角

*@authorAdministrator

**/

public class ToSingleByte extendsUDF {public staticString evaluate(String val) {if(StringUtils.isNotBlank(val)){char c[] =val.toCharArray();for (int i = 0; i < c.length; i++) {if (c[i] == '\u3000') {

c[i]= ' ';

}else if (c[i] > '\uFF00' && c[i] < '\uFF5F') {

c[i]= (char) (c[i] - 65248);

}

String returnString= newString(c);returnreturnString;

}return "";

}

View Code

2)身份证信息验证

packagecom.sjck.hive.udf.util;importjava.text.ParseException;importjava.text.SimpleDateFormat;importjava.util.Calendar;importjava.util.Date;importorg.slf4j.Logger;importorg.slf4j.LoggerFactory;/***

* 身份证合法性校验

* --15位身份证号码：第7、8位为出生年份(两位数)，第9、10位为出生月份，第11、12位代表出生日期，第15位代表性别，奇数为男，偶数为女。

* --18位身份证号码：第7、8、9、10位为出生年份(四位数)，第11、第12位为出生月份，第13、14位代表出生日期，第17位代表性别，奇数为男，偶数为女。

* 最后一位为校验位

*@author313921*/

public classIdCardUtil {private static Logger logger = LoggerFactory.getLogger(IdCardUtil.class);/***

* 省、直辖市代码表：

* 11 : 北京 12 : 天津 13 : 河北 14 : 山西 15 : 内蒙古

* 21 : 辽宁 22 : 吉林 23 : 黑龙江 31 : 上海 32 : 江苏

* 33 : 浙江 34 : 安徽 35 : 福建 36 : 江西 37 : 山东

* 41 : 河南 42 : 湖北 43 : 湖南 44 : 广东 45 : 广西 46 : 海南

* 50 : 重庆 51 : 四川 52 : 贵州 53 : 云南 54 : 西藏