自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Hive 3 物化视图的全量重建和增量重建

Hive3物化视图维护分为全量重建和增量重建两种方式。全量重建会清空现有数据重新计算,资源消耗大但适用场景广;增量重建则只处理基表变更数据,效率高但需满足特定条件。

2026-01-27 14:15:15 569

原创 Hive3.0物化视图:秒级查询加速神器

hive 3.0版本物化视图使用说明

2026-01-23 16:15:06 767

原创 hive UDTF 列转行示例

本文介绍了一个Hive自定义表生成函数(UDTF)SplitUDTF,用于将输入字符串按空格拆分为多个单词输出。

2025-07-25 18:01:25 374

原创 hive UDAF-求平均值

本文详细解析了一个Hive自定义聚合函数my_generic_avg的实现过程。该函数继承AbstractGenericUDAFResolver接口,用于计算整型列的平均值。核心实现包括:参数校验模块确保输入合法;MyGenericAvgEvaluator类处理具体聚合逻辑,包含初始化、缓冲区管理、迭代计算、结果合并等关键方法;内部类AvgAggBuffer维护聚合中间状态(sum和count)。该函数支持分布式计算,通过terminatePartial和merge方法实现各阶段结果传递,最终输出平均值。

2025-07-25 10:00:05 490

原创 hive指定数字,自动划分数值区间

在工作中经常遇到对某个数字范围,如:1~10000,需要按照100一段进行划分。手写一段一段的区间繁琐且容易出错,因此写了下述hive sql实现 指定一个数字,这个数字代表划分区间的最大范围。然后根据这个最大范围,按照划分标准,来自动划分一段一段的数值区间。其中10000代表最大范围,按照100一段的标准来分段。

2024-10-11 19:44:36 355

原创 比对两个字符串差异hive UDF

hive中两个字符串相减问题解决

2024-09-14 16:08:49 453 1

原创 python 解析 excel

使用python xlrd 模块来解析excel,逐个sheet解析,解析后生成csv文件,用 “|” 做分隔符隔开各列数据。

2024-09-14 15:51:45 1273

原创 使用sqlglot解析hive sql

运行这个脚本后,你应该能够看到 SQL 文件中引用的所有表名、INSERT 语句的目标表名、CREATE 语句的表名(去掉分区字段和注释)以及分区表的分区字段(JSON 格式)分别输出。基于平时工作需要,涉及到解析hive sql,之前用简单字符串切分或者正则切分sql,简单sql可以,但是遇到了复杂sql解析不准的问题。最开始使用sqlparse解析,发现遇到cte写法解析不出来。后来更换为sqlglot,彻底解决了解析问题。

2024-09-14 15:03:23 1372 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除