mysql 窗口函数

最新推荐文章于 2024-07-25 23:12:50 发布

a6d0m5i5n1tw

最新推荐文章于 2024-07-25 23:12:50 发布

阅读量114

点赞数

原文链接：https://blog.csdn.net/m0_38063172/article/details/83789830

版权

从version 8.0开始，MySQL支持在查询中使用窗口函数。

CREATE TABLE sales(
sales_employee VARCHAR(50) NOT NULL,
fiscal_year INT NOT NULL,
sale DECIMAL(14,2) NOT NULL,
PRIMARY KEY(sales_employee,fiscal_year)
);

INSERT INTO sales(sales_employee,fiscal_year,sale)
VALUES('Bob',2016,100),
('Bob',2017,150),
('Bob',2018,200),
('Alice',2016,150),
('Alice',2017,100),
('Alice',2018,200),
('John',2016,200),
('John',2017,150),
('John',2018,250);

使用sum聚合查询
SELECT
fiscal_year,
sales_employee,
sale,
SUM(sale) OVER (PARTITION BY fiscal_year) total_sales
FROM
sales;
+-------------+----------------+--------+-------------+
| fiscal_year | sales_employee | sale | total_sales |
+-------------+----------------+--------+-------------+
| 2016 | Alice | 150.00 | 450.00 |
| 2016 | Bob | 100.00 | 450.00 |
| 2016 | John | 200.00 | 450.00 |
| 2017 | Alice | 100.00 | 400.00 |
| 2017 | Bob | 150.00 | 400.00 |
| 2017 | John | 150.00 | 400.00 |
| 2018 | Alice | 200.00 | 650.00 |
| 2018 | Bob | 200.00 | 650.00 |
| 2018 | John | 250.00 | 650.00 |
+-------------+----------------+--------+-------------+
9 rows in set (0.00 sec)

这里，sum()函数充当了窗口函数，得到了根据fiscal_year计算出的sale的总和total_sales列，但是又不像它作为聚合函数使用时一样，这里的结果保留了每一行的信息。
原因就在于窗口函数的执行顺序（逻辑上的）是在FROM，JOIN，WHERE，GROUP　BY，HAVING之后，在ORDER　BY，LIMIT，SELECT　DISTINCT之前。它执行时GROUP　BY的聚合过程已经完成了，所以不会再产生数据聚合。

窗口函数的语法
窗口函数的语法是

window_function_name(expression)
OVER (
[partition_defintion]
[order_definition]
[frame_definition]
)

先指定作为窗口函数的函数名，然后是OVER(…)，就算OVER里面没有内容，括号也需要保留。
窗口函数的一个概念是当前行，当前行属于某个窗口，窗口由“[partition_defintion]”，“[order_definition]”，“[frame_definition]“确定。

partition_defintion
翻译过来应该是分区，语法是"PARTITION BY < expression>[{,< expression>…}]"，它会根据单个或者多个表达式的计算结果来分区（列名也是一种表达式，它的结果就是列名本身）。在前面的例子中，结果中的每一行都有自己的分区，total_sales列的值就是它所属的分区里面的sum(sale)的结果。
frame_definition
这里先讲frame_definition，可能应该是叫帧吧。它的作用是在分区里面再进一步细分窗口。语法是"frame_unit {< frame_start>|< frame_between>}"，frame_unit有两种，分别是ROWS和RANGE，由ROWS定义的frame是由开始和结束位置的行确定的，由RANGE定义的frame由在某个值区间的行确定。
如果只指定了frame的开始位置，那么结束位置就默认为当前行。frame_start有三种：
UNBOUNDED PRECEDING: 区间的第一行
N PRECEDING: 当前行之前的N行，N可以是数字，也可以是一个能计算出数字的表达式
CURRENT ROW: 当前行
frame_between的可以取的值如下：

frame_start：如前面所列
UNBOUNDED FOLLOWING：区间的最后一行
N FOLLOWING：当前行之后的N行，N可以是数字，也可以是一个能计算出数字的表达式
如果没显式指定frame的话，MySQL会认为frame是“ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING”

例子：

SELECT
fiscal_year,
sales_employee,
sale,
SUM(sale) OVER (PARTITION BY sales_employee
ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) total_sales
FROM
sales;
+-------------+----------------+--------+-------------+
| fiscal_year | sales_employee | sale | total_sales |
+-------------+----------------+--------+-------------+
| 2016 | Alice | 150.00 | 150.00 |
| 2017 | Alice | 100.00 | 250.00 |
| 2018 | Alice | 200.00 | 450.00 |
| 2016 | Bob | 100.00 | 100.00 |
| 2017 | Bob | 150.00 | 250.00 |
| 2018 | Bob | 200.00 | 450.00 |
| 2016 | John | 200.00 | 200.00 |
| 2017 | John | 150.00 | 350.00 |
| 2018 | John | 250.00 | 600.00 |
+-------------+----------------+--------+-------------+
9 rows in set (0.00 sec)

第一行所在的区间是sales_employee为Alice的区间，所在的帧是区间第一行到当前行，只有一行，total_sales为150；第二行所在的区间是sales_employee为Alice的区间，所在的帧是区间第一行到当前行，有两行，total_sales为150+100=250；第一行所在的区间是sales_employee为Alice的区间，所在的帧是区间第一行到当前行，有三行，total_sales为150+100+200=450。

order_definition
定义了分区内的行的排列顺序，语法是“ORDER BY < expression> [ASC|DESC], [{,< expression>…}]”。

https://blog.csdn.net/m0_38063172/article/details/83789830