SQL窗口函数及Pandas实现

miuhb

已于 2022-10-28 11:56:51 修改

阅读量537

点赞数 1

文章标签： sql 数据库 database

于 2022-02-25 16:53:03 首次发布

原文链接：https://www.jianshu.com/p/ef510d69d859

版权

SQL窗口函数及Pandas实现

写在前面
窗口函数在处理复杂需求时提供了一种更为简便的数据处理方式，在实际业务中应用非常广泛，也是面试官喜欢重点考察的知识点。

什么是窗口函数？

窗口函数也被称为联机分析函数(OLAP,Online Anallytical Processing)或者分析函数(Analytic Function)，窗口指对满足条件的集合进行计算，并对每一行数据返回分析结果，窗口函数的格式如下：

<窗口函数> OVER (partition by <用于分组的列名> order by <用于排序的列名> frame_clause)

1、常用窗口函数

1) 聚合函数:sum()、count()、max()、min()、avg()   
2) 排序函数:row_number()、rank()、dense_rank()    
3) 分布函数:percent_rank()、cume_dist()
4) 平移函数:lead()、lag()
5) 首尾函数:first_val()、last_val()

2、分区(partition by)

over中partition by类似group by对数据进行分区，此时，窗口函数会对每个分区单独进行分析，如果不指定partition by将会对整体数据进行分析。

3、排序(order by)

over中的order by对分区內的数据进行排序，默认为升序，当order by某个字段中有重复值时会对重复值进行求和，然后对所有数据进行累加。

4、窗口大小(frame_clause)

over中的frame_clause指对分区集合指定一个移动窗口，当指定了窗口大小后函数就不会在分区上进行计算，而是基于窗口大小內的数据进行计算。窗口大小的格式如下：

rows frame_start
or
rows between frame_start and frame_end

其中，rows表示偏移的行数。frame_start表示窗口的起始位置，有三种选项：

UNBOUNDED PRECEDING,为默认值，表示从第一行开始。
N PRECEDING,表示从前一行开始，前一行数据缺失则为0 。
CURRENT ROW，表示从当前行开始。

frame_end表示窗口的结束位置，有三种选项：

CURRENT ROW为默认值，表示从当前行结束。
N FOLLOWING，表示当前行后的第N行结束。
UNBOUNDED FOLLOWING，表示窗口到分区的最后一行结束。

sql中的默认选项为：rows between UNBOUNDED PRECEDING AND CURRENT ROW，表示统计从第一行至当前记录行。
rows between 1 PRECEDING AND 1 FOLLOWING，表示当前行和前一行及后面一行聚合，多用于近N月的数据统计。
rows between current row and UNBOUNDED FOLLOWING，表示当前行及后面所有行。

为什么要使用窗口函数

在实际业务中我们经常会遇到需要对数据结果进行额外的统计，例如在计算各部门员工薪资后新增一列为公司整体薪资，又或者对各部门薪资水平进行排序、计算占比等操作，此时如果不使用窗口函数可能需要对表进行多次的关联才能实现，因此使用窗口函数可以大大简化代码并提升代码的读写性能。

如何使用窗口函数

首先根据窗口函数的定义我们可以知道，窗口函数主要分为了聚合、排序、分布、平移及首尾等类型，对于每一种类型具体的应用场景如下：