hive
文章平均质量分 65
jl2tina
无聊的人生无聊的我
展开
-
Hive分区表动态添加字段
场景描述: 公司埋点项目,数据从接口服务写入kafka集群,再从kafka集群消费写入HDFS文件系统,最后通过Hive进行查询输出。这其中存在一个问题就是:埋点接口中的数据字段是变化,后续会有少量字段添加进来。这导致Hive表结构也需要跟着变化,否则无法通过Hive查询到最新添加字段的数据。 解决办法: 为数据表添加字段,字段必须添加到已有字段的最后面。因为已经存在的数据是按照之前的表结构写入到HDFS文件中的,当添加新字段时为了能兼容前面已经存在的数据。在新增的字段加到分区表后,之前.原创 2021-06-16 15:13:52 · 1804 阅读 · 0 评论 -
hive中UDF,UDAF,UDTF
UDF,UDAF,UDTF三个函数是Hive中常用的自定义函数,这些函数可以实现复杂的功能,且可以重复使用。 UDF(User-Defined Functions) 功能特点: 输入一条数据,输出一条数据;是一个一对一的关系,属于单纯处理操作。 用途说明: UDF函数可以直接应用于hive中的select语句,对查询结果做格式化或者各种处理后,再输出内容。 开发相关: 1.自定义UDF需要继承 org.apache.hadoop.hive.ql.exec.UDF; 2.一个UDF必须实.原创 2020-08-12 19:19:32 · 229 阅读 · 0 评论 -
hive排序
全排序:order by 部分排序:sort by 二次排序:cluster by 在排序是有多个条件排序;如 XXXX startTime desc , id desc; 分区排序:如果使用select * from table 则就是默认了随机排序,则;可以指定分区排序,关键字: 可以设置reduces的个数: set mapreduce.job.reduces=5 可以看到reduce tasks 数量为:5 ...原创 2020-07-28 19:44:43 · 106 阅读 · 0 评论