什么是窗口函数
窗口函数和聚集函数一样都是对定义的行集(组)进行聚集,但是不像聚集一样只返回一个值,窗口函数可以为每个组返回多个值,执行聚集的行组是窗口(因此称为‘窗口函数’)。窗口函数是在聚集函数的基础上加了一个 over(),所有的聚集函数都可以利用这种方式转换成窗口函数。上面的文字貌似有点抽象,举个例子说明
图1 图2 图3
图1表示是原数据表的数据,SQL语句:select * from CityTable
图2是获取原数据表中的记录数,SQL语句:select count(*)as '记录数' from CityTable
图3是根据窗口函数 count(*) over()获取数据表记录数,SQL语句:select ProvinceName,CityName, count(*) over() as '记录数' from CityTable。
由上面的比较可以得出,利用聚集函数count(*)只能得到一行记录(如图2所示),这条记录包含聚集后的结果6,而用窗口函数count(*) over()得到的记录不只一行(如图3所示),而是多行,且每行都包含了聚集结果。而这也是聚集函数和窗口函数最大的区别。
当然上面的over关键字后面的()中还可以接受其他子句,以改变窗口函数所作用的行范围,如果over()括号中没有任何子句,那么默认窗口函数作用于整个结果集。
下面介绍分区子句
[Partition By]分区子句:可以根据partition by子句定义行的分区或组,以完成聚集,如果使用空括号,那么整个结果集就是分区,窗口函数将对它进行聚集计算,可以把Partition By看成是移动的Group By,可以用Partition By对定义的行组计算聚集(当遇到新的组时复位),并返回每个值(每个组中的成员),而不是用一个组表示表中这个值的所有实例。
例如将图3所示的结果集根据省份不同进行分区,SQL语句如下:
select ProvinceName,CityName,
count(*) over(partition by ProvinceName) as '记录数'
from CityTable
上面涉及到一个函数prtition by ProvinceName,意思是将整个结果集进行分区,根据不同的省份划分不同的分区,并在结果集中显示每个分区中记录行的个数,当遇到新的分区时再进行重新计算。执行后的如图4所示
图4
窗口函数是最后才执行的,在order by 之前,where和group by之后。举个例子,还是用到图4结果集的SQL语句,外加一个条件
where (ProvinceName='福建' and CityName<>'南平') or (ProvinceName='湖南' and CityName<>'长沙') order by '记录数'
最后的SQL语句如下
select ProvinceName,CityName,
count(*) over(partition by ProvinceName) as '记录数'
from CityTable
where (ProvinceName='福建' and CityName<>'南平') or (ProvinceName='湖南' and CityName<>'长沙')
order by '记录数'
上面SQL首先根据where语句获取符合条件的记录,然后再执行窗口函数进行计数(此时湖南对应的记录数是1,而不是图4所示的2,福建对应的记录数为2,也不是图4所示的3),最后再根据order by语句进行排序,最后显示结果如图5所示
图5
另附count(*)和count(column)的区别
count(*)计算的是行的数目,而count(column)计算的是列column值非空的记录数,即count(column)是忽略空值的,那么当空值也作为有效值时,我们就只能用count(*)计算行数来进行聚集了。