hive的开窗函数篇

最新推荐文章于 2024-02-11 16:48:58 发布

夏末将至LL

最新推荐文章于 2024-02-11 16:48:58 发布

阅读量1.2w

点赞数 6

分类专栏： hive 文章标签： hive hadoop 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40202995/article/details/123049253

版权

hive 专栏收录该内容

1 篇文章 1 订阅

订阅专栏

开窗函数over（），over（）里面一般可以配合分组，排序，窗口范围三个条件使用，也可以单独用一个条件，格式如over（partition by order by between ... and）

通过partition by 关键字来对窗口分组，特殊注意：通过order by 来对order by字段排序后的行进行开窗，窗口范围如果没有设置，则每一行对应整张表。窗口函数一般和分析函数连用。

1、over()窗口函数的语法结构

分析函数 over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置)

over()函数中包括三个函数：

order by是排序的意思

partition bypartition by可理解为group by 分组。over(partition by 列名)搭配分析函数时，分析函数按照每一组每一组的数据进行计算的。rows between 开始位置 and 结束位置是指定窗口范围，比如第一行到当前行。而这个范围是随着数据变化的。over(rows between 开始位置 and 结束位置)搭配分析函数时，分析函数按照这个范围进行计算的。

窗口范围说明：我们常使用的窗口范围是ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW（表示从起点到当前行），常用该窗口来计算累加。

窗口范围说明：我们常使用的窗口范围是ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW（表示从起点到当前行），常用该窗口来计算累加。

PRECEDING：往前

FOLLOWING：往后 CURRENT ROW：当前行 UNBOUNDED：起点（一般结合PRECEDING，FOLLOWING使用） UNBOUNDED PRECEDING 表示该窗口最前面的行（起点） UNBOUNDED FOLLOWING：表示该窗口最后面的行（终点）

比如说： ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW（表示从起点到当前行） ROWS BETWEEN 2 PRECEDING AND 1 FOLLOWING（表示往前2行到往后1行） ROWS BETWEEN 2 PRECEDING AND 1 CURRENT ROW（表示往前2行到当前行） ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING（表示当前行到终点）

2、示例

示例：现有一张表数据，三列，name，month，num

（1）使用开窗逐行累计求和（加不加排序不影响）

select * ,sum(num) over(ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) from fangwen;

select * ,sum(num) over( order by month ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) from fangwen;

(2)分不同的name分组，逐行累计求和

select * ,sum(num) over(partition by name ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) total from fangwen;

不同的组之间互不影响。

（3）分组排序逐行求和

select * ,sum(num) over(partition by name order by month ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) total from fangwen;

（4）只排序，不分组，不指定窗口范围，结果会把排序列同样的作为一个窗口，后续的列会把前面的当成窗口行。

select *,sum(num) over (order by month) from fangwen；

3、常与over()一起使用的分析函数：

（1）聚合类

avg()、sum()、max()、min()

（2）排名类

row_number()按照值排序时产生一个自增编号，不会重复（如：1、2、3、4、5、6）

rank() 按照值排序时产生一个自增编号，值相等时会重复，会产生空位（如：1、2、3、3、3、6）

dense_rank() 按照值排序时产生一个自增编号，值相等时会重复，不会产生空位（如：1、2、3、3、3、4）

（3）其他类

lag(列名,往前的行数,[行数为null时的默认值，不指定为null])，可以计算用户上次购买时间，或者用户下次购买时间。或者上次登录时间和下次登录时间

lead(列名,往后的行数,[行数为null时的默认值，不指定为null])

ntile(n) 把有序分区中的行分发到指定数据的组中，各个组有编号，编号从1开始，对于每一行，ntile返回此行所属的组的编号

lag示例：

select * ,lag(time,1) over(partition by name order by time asc ) from leg_lead;

lead示例：

select * ,lead(time,1) over(partition by name order by time asc ) from leg_lead;

ntile(n）一般用法按照排序之后把数据分成n组，好让你得到你要的组。

如下：

FIRST_VALUE 取分组内排序后，截止到当前行，第一个值

（4）开窗聚合函数和group by的共用

原始数据。

不带group by的开窗数据

select shop_id,user_id,count(1) over(partition by user_id) from tmp.practice;

带了group by的开窗数据

select shop_id,user_id,count(1) over(partition by user_id) from tmp.practice group by shop_id,user_id;

所以，看出带了group by之后，开窗函数的作用范围是，group by之后的数据了，不再是原始数据。

结论：group by和over()配合起来使用的数据生成的流程是，先通过group by进行分组聚合，over函数是作用在group by所生成的数据之上的。

关注

6
点赞
踩
44

收藏

觉得还不错? 一键收藏
1
评论
hive的开窗函数篇

hive的开窗函数over（）
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。