Oracle中的分析函数

树贤森

于 2023-05-04 23:57:56 发布

阅读量2.5k

点赞数 1

分类专栏： # Oracle数据库基础文章标签： oracle 数据库 sql

本文链接：https://blog.csdn.net/m0_71406734/article/details/130496812

版权

Oracle数据库基础专栏收录该内容

38 篇文章 28 订阅

订阅专栏

1、理解什么是分析函数？

分析函数又叫开窗函数，是一种SQL函数，可以在SELECT语句中使用，用于对查询结果进行分析和计算。分析函数可以在不改变查询结果集的情况下，对结果集中的行进行排序、分组、聚合、排名等操作，同时可以计算每个行的相关值，如行号、累计总和、平均值等。常见的Oracle分析函数包括：RANK、DENSE_RANK、ROW_NUMBER、LEAD、LAG、SUM、AVG、MAX、MIN等。

2、分析函数和聚合函数区别？

二者的区别在于，聚合函数一个组可以看到一条聚合函数的记录,而分析函数除了可以看分组的聚合数据,还可以看到每组内明细数据。

3、分析函数的语法：

函数名([列])OVER(PARTITION BY 列 ORDER BY 列)

--一般格式
Select 函数名（列）over（[partition by 列][order by 列]）
Form 表;

4、常用的分析函数：

1.min(列) over([partition by 列][order by 列])

2.max(列) over([partition by 列][order by 列])

3.avg(列) over([partition by 列][order by 列])

4.sum(列) over([partition by 列][order by 列])

5.count(列) over([partition by 列][order by 列])

6.row_number()over([partition by]order by)

7.rank()over([partition by]order by)

8.dense_rank()over([partition by]order by)

9.lead(列[,数[,值]])over([partition by]order by)

10.lag(列[,数[,值]])over([partition by]order by)

11.listagg(列,'分隔符')within group(order by)over()

比如：

查询每个部门的最低工资，每种职位的平均工资,有提成的人数

select min(sal)over(partition by deptno) 部门最低,
       avg(sal)over(partition by job) 职位平均,
       count(comm)over() 人数
from emp;

查询每个人的姓名,部门编号,经理编号,部门最低工资,经理下属人数,全表最高工资

select ename,deptno,mgr,
       min(sal)over(partition by deptno) 部门最低,
       count(1)over(partition by mgr) 下属人数,
       max(sal)over() 全表最高
from emp
where mgr is not null;

5、运用分析函数求相关累计问题

可以使用SUM()函数结合OVER()子句来求累计值。

例如，以下SQL语句使用分析函数求取表t中字段a的累计总和：

SELECT a, SUM(a) OVER (ORDER BY id) AS cumulative_sum
FROM t;

在上面的SQL语句中，SUM(a)表示对字段a进行求和，OVER子句中的ORDER BY id表示按照id字段排序，cumulative_sum是自定义的别名，表示累计总和。执行以上SQL语句后，返回的结果集会包含原表中的字段a以及累计总和cumulative_sum。

其实求累计值(按值累计) 在over的括号内加上order by 即可,比如：

select sal,sum(sal)over(order by sal) 累计求和,
           avg(sal)over(order by sal) 累计平均
from emp;
--默认是按值累计

如果是按行累计，只需要在order by 后面加上

rows between unbounded preceding and current row；

比如：

select sal,sum(sal)over(order by sal 
      rows between unbounded preceding and current row) 累计求和
from emp;

已知员工emp表，按部门分组,按名字排序,查询名字、部门、累计总工资、累计平均工资

select sal,ename,deptno,
       sum(sal)over(partition by deptno order by ename) 累计总工资,
       avg(sal)over(partition by deptno order by ename) 累计平均工资
from emp;

6、运用分析函数求相关排序问题

1. RANK()函数：

用于计算每个行在结果集中的排名，如果有相同的值，则会有相同的排名，下一个排名会跳过相同的排名。(比如考试排名，一共一百个人，其中有99个满分，那么最后一个不是满分的人则排第100名不是第2名，要清楚RANK()函数是并列跳一级：1 2 2 4 5的排名法)

格式：

SELECT a, RANK() OVER(ORDER BY a DESC) AS rank
FROM t;

其中a是需要排序的列；

举例：

查询员工姓名、工资、工资排名：

select ename,sal,
       rank()over(ORDER BY sal desc) 排名 --√最合适
from emp;

查询员工姓名、工资、部门、部门内部的工资排名：

select ename,sal,deptno,
       rank()over(PARTITION BY deptno ORDER BY sal desc) 排名
from emp;

查询每个部门工资排名第一的员工信息：

select * 
from (select e.*,
      rank()over(PARTITION BY deptno ORDER BY sal desc) 排名
      from emp e)
where 排名=1;

2. DENSE_RANK()函数：

与RANK()函数类似，但是如果有相同的值，则会有相同的排名，下一个排名不会跳过相同的排名。（比如比赛排名，可以并列排序，并且是属于并列不跳级：1 2 2 3 3 4，适合于颁奖之类）

格式：

SELECT a, DENSE_RANK() OVER(ORDER BY a DESC) AS dense_rank
FROM t;

举例：

假设有一个学生表student，包含学生姓名和科目成绩两个字段。现在需要查询每个科目的前三名学生姓名和对应的成绩。

SELECT subject, name, score
FROM (
  SELECT subject, name, score, 
         dense_rank() OVER (PARTITION BY subject ORDER BY score DESC) AS rank
  FROM student
)
WHERE rank <= 3;

使用dense_rank()函数对学生表按照科目先进行分组，并按照成绩降序排列，然后根据排名筛选出每个科目的前三名学生。因为dense_rank()函数在分组时会跳过相同排名的行，因此可能出现相同排名的情况。

3. ROW_NUMBER()函数：

用于为结果集中的每一行生成一个唯一的序号。（常用于计数，序号不会重复,没有并列的情况： 1 2 3 4 5）

格式：

SELECT a, ROW_NUMBER() OVER(ORDER BY id) AS row_number
FROM t;

举例：

假设有一个订单表order，包含订单号、客户号、订单日期和订单金额四个字段。现在需要查询每个客户最近的订单信息。

SELECT order_id, customer_id, order_date, order_amount
FROM (
  SELECT order_id, customer_id, order_date, order_amount, 
         row_number() OVER (PARTITION BY customer_id ORDER BY order_date DESC) AS rn
  FROM order
)
WHERE rn = 1;

使用row_number()函数对订单表先按照客户号进行分组，并按照订单日期降序排列，然后根据行编号筛选出每个客户最近的订单信息。因为row_number()函数会按照顺序对行进行编号，所以相同排序的行会有不同的编号。

4. LEAD()和LAG()函数：

用于访问当前行之前或之后的行。格式：

SELECT a, 
       LEAD(a) OVER(ORDER BY id) AS next_a, 
       LAG(a) OVER(ORDER BY id) AS prev_a
FROM t;

LEAD()函数返回当前行之后的行的值，LAG()函数返回当前行之前的行的值。

总结：

lead(列[,数[,值]])OVER([PARTITION BY]ORDER BY) 可以理解为起到带领（位置第一）的作用；

lag(列[,数[,值]])OVER([PARTITION BY]ORDER BY) 可以理解为拖延落后（位置最后）；

注：列：要移动的列；数：要移动的距离，1，2位...；值：填补移动后空缺的数据位；

列和值的类型要一致；值不写默认空，数不写，默认是一位。

举例运用：

按照工资降序排序查询每一个人工资比他下一个人多多少：

分析：工资降序排序（即从高到低），每个人比自己下一个人多即自己是首部第一位置，所以用lead（）函数；

select sal,sal-lead(sal)OVER(ORDER BY sal desc) a
from emp;

同理：按照工资降序排序查询每一个人工资比他上一个人少多少

select sal,lag(sal)over(order by sal desc)-sal
from emp;

7、字符串连接-listagg()函数

listagg函数是Oracle中的一种分析函数，用于将多行数据合并成一行，并用指定的分隔符进行连接。该函数的语法如下：

LISTAGG(column, delimiter) WITHIN GROUP (ORDER BY column)
--即
listagg(列,'分隔符')within group(order by 列)over()

其中，column为需要连接的列名，delimiter为分隔符，ORDER BY子句用于指定连接后的结果集的排序顺序。

例如，有如下订单表order_table：

order_id	customer_id	product
1	1001	Apple
2	1001	Banana
3	1002	Orange
4	1003	Apple
5	1003	Banana

如果需要按照customer_id分组，将每个顾客下的产品名称用逗号连接起来，可以使用如下SQL语句：

SELECT customer_id, 
       LISTAGG(product, ',') WITHIN GROUP (ORDER BY product) AS products
FROM order_table
GROUP BY customer_id;

执行结果如下：

customer_id	products
1001	Apple,Banana
1002	Orange
1003	Apple,Banana

该函数的作用是将多行数据合并成一行，适用于需要将多行数据合并成一个字段的场景，例如将多个标签合并成一个字段。

总结：

row_number()over([partition by]order by)

rank()over([partition by]order by)

dense_rank()over([partition by]order by)

lead(列[,数[,值]])over([partition by]order by)

lag(列[,数[,值]])over([partition by]order by)

这五种分析函数必须要进行排序，即需要使用order by;