hive学习笔记之十一:UDTF,Javaweb面试宝典

| git仓库地址(https) | https://github.com/zq2599/blog_demos.git | 该项目源码的仓库地址,https协议 |

| git仓库地址(ssh) | git@github.com:zq2599/blog_demos.git | 该项目源码的仓库地址,ssh协议 |

  1. 这个git项目中有多个文件夹,本章的应用在hiveudf文件夹下,如下图红框所示:

在这里插入图片描述

准备工作

为了验证UDTF的功能,咱们要先把表和数据都准备好:

  1. 新建名为t16的表:

create table t16(

person_name string,

string_field string

)

row format delimited

fields terminated by ‘|’

stored as textfile;

  1. 本地新建文本文件016.txt,内容如下:

tom|1:province:guangdong

jerry|2:city:shenzhen

john|3

  1. 导入数据:

load data

local inpath ‘/home/hadoop/temp/202010/25/016.txt’

overwrite into table t16;

  1. 数据准备完毕,开始编码;

UDTF开发的关键点

  1. 需要继承GenericUDTF类;

  2. 重写initialize方法,该方法的入参只有一个,类型是StructObjectInspector,从这里可以取得UDTF作用了几个字段,以及字段类型;

  3. initialize的返回值是StructObjectInspector类型,UDTF生成的每个列的名称和类型都设置到返回值中;

  4. 重写process方法,该方法中是一进多出的逻辑代码,把每个列的数据准备好放在数组中,执行一次forward方法,就是一行记录;

  5. close方法不是必须的,如果业务逻辑执行完毕,可以将释放资源的代码放在这里执行;

  6. 接下来,就按照上述关键点开发UDTF;

一列拆成多列

  • 接下来要开发的UDTF,名为udf_wordsplitsinglerow,作用是将入参拆分成多个列;

  • 下图红框中是t16表的一条原始记录的string_field字段,会被udf_wordsplitsinglerow处理:

在这里插入图片描述

  • 上面红框中的字段被UDTF处理处理后,一列变成了三列,每一列的名称如下图黄框所示,每一列的值如红框所示:

在这里插入图片描述

  • 以上就是咱们马上就要开发的功能;

  • 打开前文创建的hiveudf工程,新建WordSplitSingleRow.java:

package com.bolingcavalry.hiveudf.udtf;

import org.apache.commons.lang.StringUtils;

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;

import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;

import org.apache.hadoop.hive.ql.metadata.HiveException;

import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;

import org.apache.hadoop.hive.serde2.objectinspector.*;

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector.Category;

import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

import java.util.ArrayList;

import java.util.List;

/**

  • @Description: 把指定字段拆成多列

  • @author: willzhao E-mail: zq2599@gmail.com

  • @date: 2020/11/5 14:43

*/

public class WordSplitSingleRow extends GenericUDTF {

private PrimitiveObjectInspector stringOI = null;

private final static String[] EMPTY_ARRAY = {“NULL”, “NULL”, “NULL”};

/**

  • 一列拆成多列的逻辑在此

  • @param args

  • @throws HiveException

*/

@Override

public void process(Object[] args) throws HiveException {

String input = stringOI.getPrimitiveJavaObject(args[0]).toString();

// 无效字符串

if(StringUtils.isBlank(input)) {

forward(EMPTY_ARRAY);

} else {

// 分割字符串

String[] array = input.split(“:”);

// 如果字符串数组不合法,就返回原始字符串和错误提示

if(null==array || array.length<3) {

String[] errRlt = new String[3];

errRlt[0] = input;

errRlt[1] = “can not split to valid array”;

errRlt[2] = “-”;

forward(errRlt);

} else {

forward(array);

}

}

}

/**

  • 释放资源在此执行,本例没有资源需要释放

  • @throws HiveException

*/

@Override

public void close() throws HiveException {

}

@Override

public StructObjectInspector initialize(StructObjectInspector argOIs) throws UDFArgumentException {

List<? extends StructField> inputFields = argOIs.getAllStructFieldRefs();

// 当前UDTF只处理一个参数,在此判断传入的是不是一个参数

if (1 != inputFields.size()) {

throw new UDFArgumentLengthException(“ExplodeMap takes only one argument”);

}

// 此UDTF只处理字符串类型

if(!Category.PRIMITIVE.equals(inputFields.get(0).getFieldObjectInspector().getCategory())) {

throw new UDFArgumentException(“ExplodeMap takes string as a parameter”);

}

stringOI = (PrimitiveObjectInspector)inputFields.get(0).getFieldObjectInspector();

//列名集合

ArrayList fieldNames = new ArrayList();

//列对应的value值

ArrayList fieldOIs = new ArrayList();

// 第一列的列名

fieldNames.add(“id”);

// 第一列的inspector类型为string型

fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

// 第二列的列名

fieldNames.add(“key”);

// 第二列的inspector类型为string型

fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

// 第三列的列名

fieldNames.add(“value”);

// 第三列的inspector类型为string型

fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);

}

}

  • 上述代码中的重点是process方法,取得入参后用冒号分割字符串,得到数组,再调用forward方法,就生成了一行记录,该记录有三列;

验证UDTF

接下来将WordSplitSingleRow.java部署成临时函数并验证;

  1. 编码完成后,在pom.xml所在目录执行命令mvn clean package -U;

  2. 在target目录得到文件hiveudf-1.0-SNAPSHOT.jar

  3. 将jar下载到hive服务器,我这里放在此目录:/home/hadoop/udf/

  4. 在hive会话模式执行以下命令添加本地jar:

add jar /home/hadoop/udf/hiveudf-1.0-SNAPSHOT.jar;

  1. 部署临时函数:

create temporary function udf_wordsplitsinglerow as ‘com.bolingcavalry.hiveudf.udtf.WordSplitSingleRow’;

  1. 执行以下SQL验证:

select udf_wordsplitsinglerow(string_field) from t16;

  1. 结果如下,可见每一行记录的string_field字段都被分割成了id、key、value三个字段:

hive> select udf_wordsplitsinglerow(string_field) from t16;

OK

id key value

1 province guangdong

2 city shenzhen

3 can not split to valid array -

Time taken: 0.066 seconds, Fetched: 3 row(s)

关键点要注意

  • 值得注意的是,UDTF不能和其他字段同时出现在select语句中,例如以下的SQL会执行失败:

select person_name,udf_wordsplitsinglerow(string_field) from t16;

  • 错误信息如下:

hive> select person_name,udf_wordsplitsinglerow(string_field) from t16;

FAILED: SemanticException [Error 10081]: UDTF’s are not supported outside the SELECT clause, nor nested in expressions

  • 如果希望得到UDTF和其他字段的结果,可以使用LATERAL VIEW语法,完整SQL如下:

select t.person_name, udtf_id, udtf_key, udtf_value

from (

select person_name, string_field

from t16

) t LATERAL VIEW udf_wordsplitsinglerow(t.string_field) v as udtf_id, udtf_key, udtf_value;

  • 查询结果如下,可见指定字段和UDTF都能显示:

hive> select t.person_name, udtf_id, udtf_key, udtf_value

from (

select person_name, string_field 
from  t16

) t LATERAL VIEW udf_wordsplitsinglerow(t.string_field) v as udtf_id, udtf_key, udtf_value;

OK

t.person_name udtf_id udtf_key udtf_value

tom 1 province guangdong

jerry 2 city shenzhen

john 3 can not split to valid array -

Time taken: 0.122 seconds, Fetched: 3 row(s)

一列拆成多行(每行多列)

  • 前面咱们试过了将string_field字段拆分成id、key、value三个字段,不过拆分后总行数还是不变,接下来的UDTF,是把string_field拆分成多条记录,然后每条记录都有三个字段;

  • 需要导入新的数据到t16表,新建文本文件016_multi.txt,内容如下:

tom|1:province:guangdong,4:city:yangjiang

jerry|2:city:shenzhen

john|3

  • 在hive会话窗口执行以下命令,会用016_multi.txt的内容覆盖t16表已有内容:

load data

local inpath ‘/home/hadoop/temp/202010/25/016_multi.txt’

overwrite into table t16;

  • 此时的数据如下图所示,红框中是一条记录的string_field字段值,咱们接下来要开发的UDTF,会先用逗号分隔,得到的就是1:province:guangdong和4:city:yangjiang这两个字符串,接下来对每个字符串用冒号分隔,就会得到两条id、key、value这样的记录,也就是多行多列:

在这里插入图片描述

  • 预期中的UDTF结果如下图所示,红框和黄框这两条记录都来自一条记录的string_field字段值:

在这里插入图片描述

  • 接下来开始编码,新建WordSplitMultiRow.java,代码如下,可见和WordSplitSingleRow的差异仅在process方法,WordSplitMultiRow的process中执行了多次forward,因此有了多条记录:

package com.bolingcavalry.hiveudf.udtf;

import org.apache.commons.lang.StringUtils;

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;

import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;

import org.apache.hadoop.hive.ql.metadata.HiveException;

import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;

import org.apache.hadoop.hive.serde2.objectinspector.*;

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector.Category;

import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

import java.util.ArrayList;

import java.util.List;

/**

  • @Description: 把指定字段拆成多行,每行有多列

  • @author: willzhao E-mail: zq2599@gmail.com

  • @date: 2020/11/5 14:43

*/

public class WordSplitMultiRow extends GenericUDTF {

private PrimitiveObjectInspector stringOI = null;

private final static String[] EMPTY_ARRAY = {“NULL”, “NULL”, “NULL”};

/**

  • 一列拆成多列的逻辑在此

  • @param args

  • @throws HiveException

*/

@Override

public void process(Object[] args) throws HiveException {

String input = stringOI.getPrimitiveJavaObject(args[0]).toString();

// 无效字符串

if(StringUtils.isBlank(input)) {

forward(EMPTY_ARRAY);

} else {

// 用逗号分隔

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Java工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024b (备注Java)
img

最后

即使是面试跳槽,那也是一个学习的过程。只有全面的复习,才能让我们更好的充实自己,武装自己,为自己的面试之路不再坎坷!今天就给大家分享一个Github上全面的Java面试题大全,就是这份面试大全助我拿下大厂Offer,月薪提至30K!

我也是第一时间分享出来给大家,希望可以帮助大家都能去往自己心仪的大厂!为金三银四做准备!
一共有20个知识点专题,分别是:

Dubbo面试专题

JVM面试专题

这个GItHub上的Java项目开源了,2020最全的Java架构面试复习指南

Java并发面试专题

这个GItHub上的Java项目开源了,2020最全的Java架构面试复习指南

Kafka面试专题

这个GItHub上的Java项目开源了,2020最全的Java架构面试复习指南

MongDB面试专题

这个GItHub上的Java项目开源了,2020最全的Java架构面试复习指南

MyBatis面试专题

这个GItHub上的Java项目开源了,2020最全的Java架构面试复习指南

MySQL面试专题

这个GItHub上的Java项目开源了,2020最全的Java架构面试复习指南

Netty面试专题

这个GItHub上的Java项目开源了,2020最全的Java架构面试复习指南

RabbitMQ面试专题

这个GItHub上的Java项目开源了,2020最全的Java架构面试复习指南

Redis面试专题

这个GItHub上的Java项目开源了,2020最全的Java架构面试复习指南

Spring Cloud面试专题

这个GItHub上的Java项目开源了,2020最全的Java架构面试复习指南

SpringBoot面试专题

这个GItHub上的Java项目开源了,2020最全的Java架构面试复习指南

zookeeper面试专题

这个GItHub上的Java项目开源了,2020最全的Java架构面试复习指南

常见面试算法题汇总专题

这个GItHub上的Java项目开源了,2020最全的Java架构面试复习指南

计算机网络基础专题

这个GItHub上的Java项目开源了,2020最全的Java架构面试复习指南

设计模式专题

这个GItHub上的Java项目开源了,2020最全的Java架构面试复习指南
MongDB面试专题

[外链图片转存中…(img-tGMcNFfb-1711939084378)]

MyBatis面试专题

[外链图片转存中…(img-aHdNe5zK-1711939084378)]

MySQL面试专题

[外链图片转存中…(img-UWBzyBoE-1711939084378)]

Netty面试专题

[外链图片转存中…(img-G6Wg7KYZ-1711939084378)]

RabbitMQ面试专题

[外链图片转存中…(img-VkjeUW4N-1711939084379)]

Redis面试专题

[外链图片转存中…(img-gYu4z9tE-1711939084379)]

Spring Cloud面试专题

[外链图片转存中…(img-uZCxAgpp-1711939084379)]

SpringBoot面试专题

[外链图片转存中…(img-gcD4hHmE-1711939084379)]

zookeeper面试专题

[外链图片转存中…(img-8g1oPzJz-1711939084380)]

常见面试算法题汇总专题

[外链图片转存中…(img-dl2msC5F-1711939084380)]

计算机网络基础专题

[外链图片转存中…(img-KHh3QBTT-1711939084380)]

设计模式专题

[外链图片转存中…(img-zlpRqx0f-1711939084381)]

  • 17
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值