大数据最全hive开窗函数总结

函数名(字段名)   over(partition by <要分列的组> order by <要排序的列> rows between <数据范围>) 

窗口大小可以通过 rows between …and…来限定,如下:

sum(A) over(partition by B order by C rows between D1 and D2)
avg(A) over(partition by B order by C rows between D1 and D2)
A:需要被加工的字段名称
B:分组的字段名称
C:排序的字段名称
D:计算的行数范围

rows between 2 preceding and current row # 取当前行和前面俩行
rows between unbounded preceding and current row  #包括本行和之前所有行
rows between current row and unbounded following #包括本行和之后所有的行
rows between 3 preceding and current row #包括本行和前面三行
rows between 3 preceding and 1 following #从前面三行和下面一行,总共五行
# 当order by 后面缺少窗口从句条件,窗口范围默认是 rows between unbounded preceding and current row.  ->上无边界到当前行
# 当 order by 和窗口从句都缺失,窗口规范默认是 rows between unbounded preceding and unbounded following. ->相当于只写partition by ,默认上无边界下午边界
以上所有范围划定 都是partition by  这个分组内来计算的 


示例1

题目:从订单信息表(order_info)中统计每个用户截止其每个下单日期的累积消费金额,以及每个用户在其每个下单日期的VIP等级。 用户vip等级根据累积消费金额计算,计算规则如下: 设累积消费总额为X, 若0=<X<10000,则vip等级为普通会员 若10000<=X<30000,则vip等级为青铜会员 若30000<=X<50000,则vip等级为白银会员 若50000<=X<80000,则vip为黄金会员 若80000<=X<100000,则vip等级为白金会员 若X>=100000,则vip等级为钻石会员
表内容:
在这里插入图片描述
代码:

select user_id,
create_date,
cast(sum_so_far as decimal(16,2)) sum_so_far,
       case
           when sum_so_far >= 100000 then '钻石会员'
           when sum_so_far >= 80000 then '白金会员'
           when sum_so_far >= 50000 then '黄金会员'
           when sum_so_far >= 30000 then '白银会员'
           when sum_so_far >= 10000 then '青铜会员'
           when sum_so_far >= 0 then '普通会员'
           end vip_level
from(
select user_id,create_date,
sum(total_amount_per_day) over(partition by user_id order by create_date rows between 2 preceding and current row) sum_so_far
from (
select user_id,create_date,sum(total_amount) total_amount_per_day
from order_info
group by user_id, create_date
) t1
) t2
-- 注意开窗范围,cast( as 数据格式),case when 的使用<

结果:
在这里插入图片描述

示例2

更换窗口:sum(total_amount_per_day) over(partition by user_id order by create_date ) sum_so_far

结果:

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**

  • 10
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hive函数主要分为排序和聚合两类。在排序函数中,常用的函数有row_number()、rank()、dense_rank()和percent_rank()。其中,row_number()用于给每一行分配一个唯一的行号,rank()用于对组内的行进行排名,dense_rank()也是对组内的行进行排名,但排名是连续的,而percent_rank()用于计算给定行的百分比排名,可以用来计算超过了百分之多少的人。\[3\] 在使用Hive函数时,可以通过rows/range between来控制函数的范围。这个功能在满足业务需求时非常有用。通过使用rows/range between,可以根据自己的需求任意地控制函数的范围。\[1\] 需要注意的是,在Hive中,函数的使用是在2003年ISO SQL标准中引入的,它解决了许多用SQL语句难以解决的问题。在函数出现之前,很多问题都需要通过复杂的相关子查询或存储过程来解决。而函数的使用使得这些经典的难题可以轻松地解决。\[2\] #### 引用[.reference_title] - *1* *3* [大数据-Hive函数](https://blog.csdn.net/MsSpark/article/details/122051503)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [Hive SQL主要函数用法介绍](https://blog.csdn.net/weixin_43025027/article/details/124388152)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值