- 博客(8)
- 收藏
- 关注
原创 Hive 3 物化视图的全量重建和增量重建
Hive3物化视图维护分为全量重建和增量重建两种方式。全量重建会清空现有数据重新计算,资源消耗大但适用场景广;增量重建则只处理基表变更数据,效率高但需满足特定条件。
2026-01-27 14:15:15
569
原创 hive UDAF-求平均值
本文详细解析了一个Hive自定义聚合函数my_generic_avg的实现过程。该函数继承AbstractGenericUDAFResolver接口,用于计算整型列的平均值。核心实现包括:参数校验模块确保输入合法;MyGenericAvgEvaluator类处理具体聚合逻辑,包含初始化、缓冲区管理、迭代计算、结果合并等关键方法;内部类AvgAggBuffer维护聚合中间状态(sum和count)。该函数支持分布式计算,通过terminatePartial和merge方法实现各阶段结果传递,最终输出平均值。
2025-07-25 10:00:05
490
原创 hive指定数字,自动划分数值区间
在工作中经常遇到对某个数字范围,如:1~10000,需要按照100一段进行划分。手写一段一段的区间繁琐且容易出错,因此写了下述hive sql实现 指定一个数字,这个数字代表划分区间的最大范围。然后根据这个最大范围,按照划分标准,来自动划分一段一段的数值区间。其中10000代表最大范围,按照100一段的标准来分段。
2024-10-11 19:44:36
355
原创 python 解析 excel
使用python xlrd 模块来解析excel,逐个sheet解析,解析后生成csv文件,用 “|” 做分隔符隔开各列数据。
2024-09-14 15:51:45
1273
原创 使用sqlglot解析hive sql
运行这个脚本后,你应该能够看到 SQL 文件中引用的所有表名、INSERT 语句的目标表名、CREATE 语句的表名(去掉分区字段和注释)以及分区表的分区字段(JSON 格式)分别输出。基于平时工作需要,涉及到解析hive sql,之前用简单字符串切分或者正则切分sql,简单sql可以,但是遇到了复杂sql解析不准的问题。最开始使用sqlparse解析,发现遇到cte写法解析不出来。后来更换为sqlglot,彻底解决了解析问题。
2024-09-14 15:03:23
1372
5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅