用简单程序协助MySQL实现窗口函数

窗口函数是 SQL2003 标准才开始有的一系列 SQL 函数,用于应付一些复杂运算是比较方便。但是普遍使用的 MySQL 数据库对窗口函数支持得却很不好,直到最近的版本才开始有部分支持,这当然就让 MySQL 程序员很郁闷了。

实际操作中,我们可以在 MySQL 里用 SQL 拼出窗口函数功能,但是需要使用用户变量以及多个 SELECT 表达式从左到右依次计算的隐含规则。下面我们来看两个例子(为调试方便,我们直接用集算器作为测试环境)。

1、2016 年 1 月销售额排名

c2c907c773f24ee1b81a0717b2affa4c.png

(1)A1 中语句用于初始化用户变量;

(2)A2 中语句先对销售额排倒序,然后每一行销售额与上一行销售额比较,若相等则排名不变,否则排名等于行号;

(3)A3 连接数据库;

(4)A4 执行初始化语句;

(5)A5 执行查询语句并关闭数据库连接,返回结果。

执行后 A5 为需要的结果。

c22e25abd85642c486b49259f8638e1b.png

2、2016 年 1 月和 2 月销售额按月分组百分比排名

706e89b118ed44ea91a2d55e7fa6338f.png

(1)A1 中语句用于初始化用户变量;

(2)A2 中语句子查询 t11 求出上一行的月份和销售额,t1 再求出本月行号与排名,t2 算出每月的行数,最后 t1 与 t2 连接再利用公式 [if(本月行数>1,(当前行的本月排名 -1)/(本组行数 -1),0)] 求出百分比排号。

执行后 A5 为需要的结果。

0f161366d09946f4a061b6e3e92ae06a.png

通过上述两个例子,我们可以看到,为了实现窗口函数相应功能,SQL 语句冗长、复杂而且可读性较差。另外,这里还使用了 SELECT 表达式从左到右依次计算的隐含规则,而这在 MySQL 参考手册是不推荐使用的,如果今后不能使用这一规则,那么写出来的 SQL 语句会更加复杂。譬如不使用这条隐含规则如何能取上一行的字段值呢?各位读者可以自行脑补。

值得庆幸的是,有了集算器及其特有的 SPL 语言,我们就大可不必这么麻烦了,MySQL 只要使用最基本的 SQL 就行了,剩下的事由集算器来完成。

下面我们就来看看集算器的 SPL 语法是如何实现相应窗口函数的功能的。

1、SUM()、COUNT()、AVG()、MAX()、MIN()、VARIANCE

a)

select province, sales, sum(sales) over() `sum`,

avg(sales) over() `avg`, max(sales) over() `max`,

min(sales) over() `min`, count(*) over() `count`

from detail

where yearmonth=201601

order by sales;

2ea2c8353511427f8e1ca41bdbf7d2cb.png

(1)A3 到 A7 依次对销售额求和、求平均、求最大、求最小及求总行数;

(2)A8 构造序表,其中每一行都有本月销售额总和、平均值、最大值、最小值及总行数

执行后 A8 的结果如下:

3d1df48c14dc44268e4e52d4456c40ed.png

这个例子很常规,毫无挑战性,只是小练一把,下面开始玩真的。

b)

select yearmonth,province,sales,

sum(sales) over (partition by yearmonth) `sum`,

avg(sales) over (partition by yearmonth) `avg`,

max(sales) over (partition by yearmonth) `max`,

min(sales) over (partition by yearmonth) `min`,

count(*) over (partition by yearmonth) `count`

from detail

where yearmonth in (201601,201602) and sales>49500

order by yearmonth, sales desc;

354617634e74435bb9cbfdaabbabdc3d.png

(1)A2 中按月份分组并对销售额求和、求平均、求最大、求最小及每组行数;

(2)A4 按月份将 A2 中 yearmonth 字段值转换成 A3 中相同月份的记录

执行后 A5 的结果如下。

c958b5bf162d4ccaa5ee69b16aa16cde.png

2、VARIANCE()、STD()

a)

select province, sales, variance(sales) over() `variance`, std(sales) over() `std`

from detail where yearmonth=201601;

047eb2b51523459cb87340815dd2a7ef.png

(1)A3 对销售额求方差。

(2)A4 对 A3 求平方根即为标准差

执行后 A5 的结果如下。

a8ea4315c9e545cd983464c9245d8181.png

b)

select yearmonth, province, sales,

variance(sales) over(partition by yearmonth) `variance`,

std(sales) over(partition by yearmonth) `std`

from detail

where yearmonth in (201601, 201602);

c135b73e4ef0451caea572d135031582.png

(1)A3 按月份分组

(2)A4 求每月销售额的方差

执行后 A6 的结果如下:

b79945472add4c65ab4cd3a13ef68eeb.png

3、ROW_NUMBER()、RANK()、DENSE_RANK()、PERCENT_RANK()

a)

select province, sales, row_number() over(order by sales desc) `row_number`,

rank() over (order by sales desc) `rank`,

dense_rank() over (order by sales desc) `dense_rank`,

percent_rank() over (order by sales desc) `percent_rank`

from detail

where yearmonth=201601;

0b72d176bf0849258dcc272e2809310d.png

(1)A5 中 #表示当前行在 A3 中的序号

(2) 百分比排名的公式 =if(行数 >1,( 排名 -1)/(行数 -1))

执行后 A5 的结果如下:

3a557b2bf9974d79900309837427a096.png

b)

select province, sales,

row_number() over(partition by yearmonth order by sales desc)

`row_number`,

rank() over (partition by yearmonth order by sales desc) `rank`,

dense_rank() over (partition by yearmonth order by sales desc)

`dense_rank`,

percent_rank() over (partition by yearmonth order by sales desc)

`percent_rank`

from detail

where yearmonth in (201601,201602);

4d7fd9685d9348d49c4cf15f0d008ab3.png

执行后 A6 的结果如下:

8f091d9077a54ca1a8d1546810c1370d.png

4、NTILE()

a)

select province, sales, ntile(3) over() `ntile`

from detail

where yearmonth=201601;

c7694e37b144497d8585c1432c1e9694.png

(1)A3 里指明桶数为 3

(2)A5 中 z(i, 桶数, 总行数) 计算第 i 行所在桶号

执行后 A9 的结果如下:

185513b74f9943aca1960a32b99f1c1a.png

b)

select yearmonth, province, sales, ntile(3) over(partition by yearmonth)

`ntile`

from detail

where yearmonth=201601 or( yearmonth=201602 and province!='上海');

4832b7405aaa4edd8ab5cca45ae1447d.png

执行后 A6 的结果如下:

ae4864a1d5b6448a9ff0bfb5ddb4f6ff.png

5、FIRST_VALUE()、LAST_VALUE()、NTH_VALUE()、LAG()、LEAD()

a)

select province,sales,

first_value(sales) over(partition by yearmonth) `first_value`,

last_value(sales) over(partition by yearmonth) `last_value`,

nth_value(sales, 5) over(partition by yearmonth) `nth_value`,

lag(sales, 2) over(partition by yearmonth) `lag`,

lead(sales, 3) over(partition by yearmonth) `lead`

from detail

where yearmonth=201601;

bd8d7bb131fb4a2795f879c05f2ee37c.png

(1)Am(i) 取 A2 中第 i 条记录,越界返回 null,负数则从后往前数第 abs(i) 条记录,不能使用 A2(i),因为 A2(i) 越界会报错

执行后 A3 的结果如下:

4607734ad7984e689d2ca8a4c4ba5e11.png

b)

select yearmonth,province,sales,

first_value(sales) over(partition by yearmonth) `first_value`,

last_value(sales) over(partition by yearmonth) `last_value`,

nth_value(sales, 5) over(partition by yearmonth) `nth_value`,

lag(sales, 2) over(partition by yearmonth) `lag`,

lead(sales, 3) over(partition by yearmonth) `lead`

from detail

where yearmonth=201601 or (yearmonth=201602 and sales>50000);

dbb8c810626549e9bb7e74eb1e7561e6.png

(1)A5 中,seq(yearmonth) 尽可能不要在 if 函数中使用,因为 seq 函数是在对 A2 中记录循环过程中累加的,导致 seq 函数少执行 1 次就少累加 1。

(2)A5 中,前面的表达式用 seq=seq(yearmonth) 对变量 seq 赋值,这样后续表达式就可以引用变量 seq。

执行后 A5 的结果如下:

63a3d966e13544c4a9f99a9bea6969bf.png

6、CUME_DIST()

a)

select province,sales, cume_dist() over(order by sales) `cume_dist`

from detail

where yearmonth=201601;

e3c64eba2d184036be5d5dad6073148e.png

(1)CUME_DIST()over (order by sales) 求销售额从小到大的累积概率分布,公式为 (小于等于当前销售额的行数 / 总行数)

(2) 小于等于当前销售额的行数 = 总行数 - 当前销售额从大到小的排名 +1

(3)A2 必须按销售额从大到小排序

(4)A5 数据倒排

执行后 A5 的结果如下:

ef61bb6e8aa440f182794785a5224244.png

b)

select yearmonth, province,sales,

cume_dist() over(partition by yearmonth order by sales) `cume_dist`

from detail

where yearmonth in (201601,201602);

0eb4c75128d84dd4b5abbc6607cdc4aa.png

(1) 对应于最后的倒排,A2 中按月份从大到小排序

执行后 A6 的结果如下:

46e18edd2ece4b988b542c535177e051.png

看完十多个例子,有没有觉得集算器代码实现 so easy?!而且,由于集算器可以对单元格进行分步计算,我们可以按照自然的思路逐步查看查询结果,从而更加简便、直观地完善整个查询脚本。赶紧用起来吧,你会发现更多又方便又强大的功能!


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31543054/viewspace-2214657/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31543054/viewspace-2214657/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值