窗口函数总结

orange大数据技术探索者

已于 2022-03-11 16:28:04 修改

阅读量199

点赞数 1

分类专栏： # hive 文章标签： hive window

于 2020-12-02 11:23:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43283487/article/details/110474709

版权

hive 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

窗口函数本身是可以按照partition进行分区然后进行聚合函数的

第1类

Row_Number,Rank，Dense_Rank
排序窗口函数，不过多介绍

第2类

SUM、AVG、MIN、MAX
作用之一是求第一行的数据不断往后累加得出

1行
1+2行
1+2+3行
1+2+3+4行

此类可以附带参数选择特定的多少行

PRECEDING：往前
FOLLOWING：往后
CURRENT ROW：当前行
UNBOUNDED：起点
UNBOUNDED
PRECEDING 表示从前面的起点
UNBOUNDED FOLLOWING：表示到后面的终点

有排序和不排序完全不同
排序：分组内排序后数据不断累积，比如sum后 1、2、 3 、6 、12 为新列
没有 order 只有 partition，12、12 、12、12、12

第3类

NTILE：用于将分组数据按照顺序切分成n片，返回当前切片值，如果切片不均匀，默认增加第一个切片的分布。NTILE不支持ROWS BETWEEN
使用场景：

如一年中，统计出工资前1/5之的人员的名单，使用NTILE分析函数,把所有工资分为5份，为1的哪一份就是我们想要的结果.
sale前20%或者50%的用户ID

第4类

LEAD,LAG,FIRST_VALUE,LAST_VALUE

lag与lead函数可以返回上下行的数据

LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值
第一个参数为列名，第二个参数为往下第n行（可选，默认为1），第三个参数为默认值（当往下第n行为NULL时候，取默认值，如不指定，则为NULL）
LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值
第一个参数为列名，第二个参数为往上第n行（可选，默认为1），第三个参数为默认值（当往上第n行为NULL时候，取默认值，如不指定，则为NULL）

使用场景：通常用于统计某用户在某个网页上的停留时间

在这里插入图片描述

FIRST_VALUE:取分组内排序后，截止到当前行，第一个值
LAST_VALUE:取分组内排序后，截止到当前行,最后一个值

如果不指定ORDER BY，则默认按照记录在文件中的偏移量进行排序，会出现错误的结果

第5类

很少用到
CUME_DIST，PERCENT_RANK

CUME_DIST 小于等于当前值的行数/分组内总行数
比如，统计小于等于当前薪水的人数，所占总人数的比例

在这里插入图片描述

PERCENT_RANK 分组内当前行的RANK值-1/分组内总行数-1
在这里插入图片描述

orange大数据技术探索者

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
窗口函数总结

第1类Row_Number,Rank，Dense_Rank排序窗口函数，不过多介绍第2类SUM、AVG、MIN、MAX作用之一是求第一行的数据不断往后累加得出1行1+2行1+2+3行1+2+3+4行此类可以附带参数选择特定的多少行PRECEDING：往前FOLLOWING：往后CURRENT ROW：当前行UNBOUNDED：起点UNBOUNDEDPRECEDING 表示从前面的起点UNBOUNDED FOLLOWING：表示到后面的终点第3类NTILE：用于
复制链接

扫一扫

专栏目录

orange大数据技术探索者 CSDN认证博客专家 CSDN认证企业博客

码龄6年

298: 原创

5万+: 周排名

1万+: 总排名

25万+: 访问

: 等级

4413: 积分

346: 粉丝

423: 获赞

44: 评论

665: 收藏

私信

关注

热门文章

分类专栏

最新评论

flink Unsupported operand types: IF(boolean, NULL, String)
普通网友: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Flink 参数Could not parse value
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)使用更多的站内链接；(3)提升标题与正文的相关性。
Flink 细粒度的滑动窗口解决方案
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)使用更多的站内链接。
Flink大状态如何处理
CSDN-Ada助手: Flink 如何应对数据倾斜问题？
Flink的状态
CSDN-Ada助手: sqlite,mysql,postgresql这些数据库也是大数据的一部分么？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

orange大数据技术探索者 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。