超级详细的查询树优化！数据库笔记GET！！！

最新推荐文章于 2025-02-28 05:00:00 发布

IcynLau

最新推荐文章于 2025-02-28 05:00:00 发布

阅读量1.8w

点赞数 37

文章标签： mysql

本文链接：https://blog.csdn.net/qq_43103778/article/details/106679568

版权

本文探讨了数据库查询优化中的核心概念，包括执行代价估算、等价变换规则及启发式规则的应用。通过实例分析，展示了如何利用等价变换规则优化查询树，减少I/O代价，提升查询效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、执行代价估算

即查询操作的不同执行策略的代价估算

目前关系数据库管理系统通过某种代价模型计算出各种查询执行策略的执行代价，然后选取代价最小的执行方案。

执行开销

查询操作的执行开销主要包括：（以集中式数据库为例）

磁盘存取块数（I/O代价） 因为磁盘I/O操作涉及机械动作，所以需要的时间和内存操作相比要高几个数量级，所以我们计算查询代价时一般以查询处理读写的块数作为衡量单位。
处理机时间（CPU代价）
查询的内存开销
（如果是分布式数据库，还要考虑 4. 通信代价）

执行开销计算实例

eg：求选修了2号课程的学生姓名。

1）用SQL语句来表达这个查询：

SELECT Student.Sname
FROM Student,SELECT
WHERE Student.Sno=SC.Sno AND SC.Cno='2';

2）系统可以使用多种等价的关系代数表达式完成上面的查询操作，但是查询执行的策略不同，查询效率相差非常大。
我们下面分析三种非常有代表性的关系代数表达式，研究这3个表达式/执行策略需要耗费的I/O（处理读写的块数）代价。

电脑通过虚拟文件系统（VFS）访问物理磁盘，每次对磁盘访问的最小单位是一个盘面的一个磁道上的一个扇区，即使用户只需要访问一个字节的数据，实际读写的时候也是先将所在扇区读入内存，然后再进行访问，正因为如此，文件系统是由一系列块构成的。块的大小通常是一个扇区的大小，而一个扇区通常为512字节

为了方便计算我们先做一些假定：
a. 学生-课程数据库中有1000个学生记录，10 000个选课记录，其中选修2号课程的选课记录为50个。
在这里插入图片描述
b. 计算笛卡儿积时，以Student和SC的元组连接为例，一般采用的做法是：

在内存中尽可能多地装入某个表（如Student表）的若干块，留出一块存放另一个表（如SC表）的元组：然后把SC中的每个元组和Student中每个元组进行连接，连接后的元组装满一块后就写到中间文件上，再从SC中读入一块和内存中的Student元组连接，直到SC表处理完；
之后再读入若干块Student元组，读入一块SC元组，重复上述处理过程，直到把Student表处理完。

其实就是类似于嵌套循环算法的处理方式，但是这里由于内存的限制，只能每次取出一部分Student中的元组来和SC中的全部元组进行连接，即每次读进一部分Student中的元组，都要遍历一遍SC表。

整个过程可以这样描述（上述Student对应下面的R表 SC对应S表）：

设连接表R和S分别占用的块数是Br和Bs，连接操作使用的内存缓冲区块数是为K，分配K-1块给外表。如果R为外表，则嵌套循环法存取的块数是Br+BrBs/（K-1），显然我们选择外表时应该选择块数较小的表。

c. 一个（内存缓冲区中的）块能装10个Student元组或100个SC元组。
在这里插入图片描述
d. 内存缓冲区中总共使用6个块，其中5块用来存放Student元组，1块用来存放SC元组

下面是对这三种执行策略的代价估算：

在这里插入图片描述

上面的例子不仅说明了查询优化的重要性，也给了我们十分宝贵的优化经验和优化“直觉”，之后的启发式规则就是基于类似这样的经验得出的。

二、等价变换公式

关系代数表达式的等价变换规则
我们可以通过下面这些等价关系，对关系代数表达式进行等价变换以达到提高查询效率的目的

详细描述以及证明可见王珊老师的《数据库系统概论》的代数优化章节。

1.连接、笛卡儿积的交换律

在这里插入图片描述

2.连接、笛卡儿积的结合律

在这里插入图片描述

3.投影的串接定律

在这里插入图片描述

4.选择的串接定律

在这里插入图片描述

5.选择与投影的交换律

在这里插入图片描述

6.选择与笛卡儿积的交换律

在这里插入图片描述

7.选择与并的分配律

在这里插入图片描述

8.选择与差运算的分配律

在这里插入图片描述

9.选择对自然连接的分配律

在这里插入图片描述

10.投影与笛卡儿积的分配律

在这里插入图片描述

11.投影与并的分配律

在这里插入图片描述

这些等价变换规则是接下来查询树优化的依据

三、启发式规则与查询树优化

遵循启发式规则，使用关系代数表达式的等价变换公式优化关系表达式的算法（为了形象的理解，引入查询树来表示具体的查询策略）。

（一）启发式规则

启发式规则是基于经验的规则，可以结合维基百科对启发法的定义来理解这个词

启发法（heuristics，源自古希腊语的εὑρίσκω，又译作：策略法、助发现法、启发力、捷思法、拍脑袋）是指依据有限的知识（或“不完整的信息”）在短时间内找到问题解决方案的一种技术。
它是一种依据关于系统的有限认知和假说从而得到关于此系统的结论的分析行为。由此得到的解决方案有可能会偏离最佳方案。通过与最佳方案的对比，可以确保启发法的质量。
典型的启发法有试错法和排除法。
鉴于启发法基于经验，有时它也可能是基于错误的经验（如感知偏离和伪关系）。