hive学习笔记之十：用户自定义聚合函数(UDAF)，2024年最新滴滴公司面试经验

最新推荐文章于 2024-04-23 14:59:38 发布

晨晨西

最新推荐文章于 2024-04-23 14:59:38 发布

阅读量447

点赞数 4

分类专栏： 2024年程序员学习文章标签： hive 学习笔记

本文链接：https://blog.csdn.net/sili7762mo/article/details/138003313

版权

2024年程序员学习专栏收录该内容

37 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Java开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024b （备注Java）

正文

public Integer getValue() {

return value;

}

public void setValue(Integer value) {

this.value = value;

}

public void add(int addValue) {

synchronized (value) {

value += addValue;

}

/**

合并值缓冲区大小，这里是用来保存字符串长度，因此设为4byte
@return

@Override

public int estimate() {

return JavaDataModel.PRIMITIVES1;

}

新建FieldLengthUDAFEvaluator.java，里面是整个UDAF逻辑实现，关键代码已经添加了注释，请结合前面的图片来理解，核心思路是iterate将当前分组的字段处理完毕，merger把分散的数据合并起来，再由terminate决定当前分组计算结果：

package com.bolingcavalry.hiveudf.udaf;

import org.apache.hadoop.hive.ql.metadata.HiveException;

import org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator;

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;

import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector;

/**

@Description: 这里是UDAF的实际处理类
@author: willzhao E-mail: zq2599@gmail.com
@date: 2020/11/4 9:57

public class FieldLengthUDAFEvaluator extends GenericUDAFEvaluator {

PrimitiveObjectInspector inputOI;

ObjectInspector outputOI;

PrimitiveObjectInspector integerOI;

/**

每个阶段都会被执行的方法，
这里面主要是把每个阶段要用到的输入输出inspector好，其他方法被调用时就能直接使用了
@param m
@param parameters
@return
@throws HiveException

@Override

public ObjectInspector init(Mode m, ObjectInspector[] parameters) throws HiveException {

super.init(m, parameters);

// COMPLETE或者PARTIAL1，输入的都是数据库的原始数据

if(Mode.PARTIAL1.equals(m) || Mode.COMPLETE.equals(m)) {

inputOI = (PrimitiveObjectInspector) parameters[0];

} else {

// PARTIAL2和FINAL阶段，都是基于前一个阶段init返回值作为parameters入参

integerOI = (PrimitiveObjectInspector) parameters[0];

}

outputOI = ObjectInspectorFactory.getReflectionObjectInspector(

Integer.class,

ObjectInspectorFactory.ObjectInspectorOptions.JAVA

);

// 给下一个阶段用的，即告诉下一个阶段，自己输出数据的类型

return outputOI;

}

public AggregationBuffer getNewAggregationBuffer() throws HiveException {

return new FieldLengthAggregationBuffer();

}

/**

重置，将总数清理掉
@param agg
@throws HiveException

public void reset(AggregationBuffer agg) throws HiveException {

((FieldLengthAggregationBuffer)agg).setValue(0);

}

/**

不断被调用执行的方法，最终数据都保存在agg中
@param agg
@param parameters
@throws HiveException

public void iterate(AggregationBuffer agg, Object[] parameters) throws HiveException {

if(null==parameters || parameters.length<1) {

return;

}

Object javaObj = inputOI.getPrimitiveJavaObject(parameters[0]);

((FieldLengthAggregationBuffer)agg).add(String.valueOf(javaObj).length());

}

/**

group by的时候返回当前分组的最终结果
@param agg
@return
@throws HiveException

public Object terminate(AggregationBuffer agg) throws HiveException {

return ((FieldLengthAggregationBuffer)agg).getValue();

}

/**

当前阶段结束时执行的方法，返回的是部分聚合的结果（map、combiner）
@param agg
@return
@throws HiveException

public Object terminatePartial(AggregationBuffer agg) throws HiveException {

return terminate(agg);

}

/**

合并数据，将总长度加入到缓存对象中（combiner或reduce）
@param agg
@param partial
@throws HiveException

public void merge(AggregationBuffer agg, Object partial) throws HiveException {

((FieldLengthAggregationBuffer) agg).add((Integer)integerOI.getPrimitiveJavaObject(partial));

}

最后是FieldLength.java，该类注册UDAF到hive时用到的，负责实例化FieldLengthUDAFEvaluator，给hive使用：

package com.bolingcavalry.hiveudf.udaf;

import org.apache.hadoop.hive.ql.parse.SemanticException;

import org.apache.hadoop.hive.ql.udf.generic.AbstractGenericUDAFResolver;

import org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator;

import org.apache.hadoop.hive.ql.udf.generic.GenericUDAFParameterInfo;

import org.apache.hadoop.hive.serde2.typeinfo.TypeInfo;

public class FieldLength extends AbstractGenericUDAFResolver {

@Override

public GenericUDAFEvaluator getEvaluator(GenericUDAFParameterInfo info) throws SemanticException {

return new FieldLengthUDAFEvaluator();

}

@Override

public GenericUDAFEvaluator getEvaluator(TypeInfo[] info) throws SemanticException {

return new FieldLengthUDAFEvaluator();

}

至此，编码完成，接下来是部署和体验；

部署和体验

本次部署的注册方式是临时函数，如果您想注册为永久函数，请参考前文；

在pom.xml所在目录执行mvn clean package -U，即可编译构建；
在target目录得到文件hiveudf-1.0-SNAPSHOT.jar；
上传到hive服务器，我这里是放在/home/hadoop/udf目录；
进入hive会话，执行以下命令添加jar：

add jar /home/hadoop/udf/hiveudf-1.0-SNAPSHOT.jar;

执行以下命令注册：

create temporary function udf_fieldlength as ‘com.bolingcavalry.hiveudf.udaf.FieldLength’;

找一个适合执行group by的表试试，我这里是前面的文章中创建的address表，完整数据如下：

hive> select * from address;

1 guangdong guangzhou

2 guangdong shenzhen

3 shanxi xian

4 shanxi hanzhong

6 jiangshu nanjing

执行下面的SQL：

select province, count(city), udf_fieldlength(city) from address group by province;

感受：

其实我投简历的时候，都不太敢投递阿里。因为在阿里一面前已经过了字节的三次面试，投阿里的简历一直没被捞，所以以为简历就挂了。

特别感谢一面的面试官捞了我，给了我机会，同时也认可我的努力和态度。对比我的面经和其他大佬的面经，自己真的是运气好。别人8成实力，我可能8成运气。所以对我而言，我要继续加倍努力，弥补自己技术上的不足，以及与科班大佬们基础上的差距。希望自己能继续保持学习的热情，继续努力走下去。

也祝愿各位同学，都能找到自己心动的offer。

分享我在这次面试前所做的准备（刷题复习资料以及一些大佬们的学习笔记和学习路线），都已经整理成了电子文档

拿到字节跳动offer后，简历被阿里捞了起来，二面迎来了P9"盘问"

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024b （备注Java）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

所以对我而言，我要继续加倍努力，弥补自己技术上的不足，以及与科班大佬们基础上的差距。希望自己能继续保持学习的热情，继续努力走下去。

也祝愿各位同学，都能找到自己心动的offer。

分享我在这次面试前所做的准备（刷题复习资料以及一些大佬们的学习笔记和学习路线），都已经整理成了电子文档

[外链图片转存中…(img-xwYtZWj6-1713602140651)]

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024b （备注Java）
[外链图片转存中…(img-F9aWWIJv-1713602140652)]

晨晨西

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
hive学习笔记之十：用户自定义聚合函数(UDAF)，2024年最新滴滴公司面试经验

所以对我而言，我要继续加倍努力，弥补自己技术上的不足，以及与科班大佬们基础上的差距。所以对我而言，我要继续加倍努力，弥补自己技术上的不足，以及与科班大佬们基础上的差距。因为在阿里一面前已经过了字节的三次面试，投阿里的简历一直没被捞，所以以为简历就挂了。分享我在这次面试前所做的准备（刷题复习资料以及一些大佬们的学习笔记和学习路线），都已经整理成了电子文档。// 给下一个阶段用的，即告诉下一个阶段，自己输出数据的类型。
复制链接

扫一扫

专栏目录