开窗函数概念
聚合函数对一组值执行计算并返回单一的值,如sum(),count(),max(),min(), avg()等,这些函数常与group by子句连用。除了 COUNT 以外,聚合函数忽略空值。
但有时候一组数据只返回一个值是不能满足需求的,如我们经常想知道各个地区的前几名、各个班或各个学科的前几名。这时候需要每一组返回多个值。用开窗函数解决这类问题非常方便。
聚合函数对一组值执行计算并返回单一的值,如sum(),count(),max(),min(), avg()等,这些函数常与group by子句连用。除了 COUNT 以外,聚合函数忽略空值。
但有时候一组数据只返回一个值是不能满足需求的,如我们经常想知道各个地区的前几名、各个班或各个学科的前几名。这时候需要每一组返回多个值。用开窗函数解决这类问题非常方便。
开窗函数和聚合函数的区别:
(1)SQL 标准允许将所有聚合函数用作开窗函数,用OVER 关键字区分开窗函数和聚合函数
(2)聚合函数每组只返回一个值,开窗函数每组可返回多个值。
开窗函数与聚合函数一样,也是对行集组进行聚合计算,但是它不像普通聚合函数那样每组只返回一个值,开窗函数可以为每组返回多个值,因为开窗函数所执行聚合计算的行集组是窗口。
创建测试数据
开窗函数格式
函数名(列名) OVER(partition by 列名 order by列名)
聚合开窗函数
lead() over()
LEAD (expr[, offset]) OVER ( #注意:这里没有default这一项
[ PARTITION BY partition_expression ]
[ ORDER BY order_list ]
)
count()
排序开窗函数
row_number() over()、rank() over()、dense_rank() over()、ntile() over()
(1) row_number() over():
对相等的值不进行区分,其实就是行号,相等的值对应的排名不同,序号从1到n连续。
(2) rank() over():
相等的值排名相同,但若有相等的值,则序号从1到n不连续。如果有两个人都排在第3名,则没有第4名。
(3) dense_rank() over():
对相等的值排名相同,但序号从1到n连续。如果有两个人都排在第一名,则排在第2名(假设仅有1个第二名)的人是第3个人。
(4) ntile( n ) over():
可以看作是把有序的数据集合平均分配到指定的数量n的桶中,将桶号分配给每一行,排序对应的数字为桶号,序号从1到n连续。如果不能平均分配,则较小桶号的桶分配额外的行,并且各个桶中能放的数据条数最多相差1。
参考链接:https://www.cnblogs.com/lihaoyang/p/6756956.html
https://blog.csdn.net/qq_31183727/article/details/107023293