关系数据库攻略(第17周)
第十组
查询检查
根据数据字典对合法的查询语句进行语义检查
根据数据字典中的用户权限和完整性约束定义对用户的存取权限进行检查
检查通过后把SQL查询语句转换成等价的关系代数表达式
RDBMS一般都用查询树(语法分析树)来表示扩展的关系代数表达式
把数据库对象的外部名称转换为内部表示
查询优化
查询优化:选择一个高效执行的查询处理策略
查询优化分类 :
代数优化:指关系代数表达式的优化
物理优化:指存取路径和底层操作算法的选择
查询优化方法选择的依据:
基于规则(rule based)
基于代价(cost based)
查询执行
依据优化器得到的执行策略生成查询计划
代码生成器(code generator)生成执行查询计划的代码
选择操作的实现
[例1]Select * from student where <条件表达式> ;
考虑<条件表达式>的几种情况:
C1:无条件;
C2:Sno='200215121';
C3:Sage>20;
C4:Sdept='CS' AND Sage>20;
选择操作典型实现方法:
1. 简单的全表扫描方法
对查询的基本表顺序扫描,逐一检查每个元组是否满足选择条件,把满足条件的元组作为结果输出
适合小表,不适合大表
2. 索引(或散列)扫描方法
适合选择条件中的属性上有索引(例如B+树索引或Hash索引)
通过索引先找到满足条件的元组主码或元组指针,再通过元组指针直接在查询的基本表中找到元组
[例1-C2] 以C2为例,Sno=‘200215121’,并且Sno上有索引(或Sno是散列码)
使用索引(或散列)得到Sno为‘200215121’ 元组的指针
通过元组指针在student表中检索到该学生
[例1-C3] 以C3为例,Sage>20,并且Sage 上有B+树索引
使用B+树索引找到Sage=20的索引项,以此为入口点在B+树的顺序集上得到Sage>20的所有元组指针
通过这些元组指针到student表中检索到所有年龄大于20的学生。
[例1-C4] 以C4为例,Sdept=‘CS’ AND Sage>20,如果Sdept和Sage上都有索引:
算法一:分别用上面两种方法分别找到Sdept=‘CS’的一组元组指针和Sage>20的另一组元组指针
求这2组指针的交集
到student表中检索
得到计算机系年龄大于20的学生
算法二:找到Sdept=‘CS’的一组元组指针,
通过这些元组指针到student表中检索
对得到的元组检查另一些选择条件(如Sage>20)是否满足
把满足条件的元组作为结果输出。
连接操作的实现
连接操作是查询处理中最耗时的操作之一
本节只讨论等值连接(或自然连接)最常用的实现算法
[例2] SELECT * FROM Student,SC
WHERE Student.Sno=SC.Sno;
嵌套循环方法(nested loop)
对外层循环(Student)的每一个元组(s),检索内层循环(SC)中的每一个元组(sc)
检查这两个元组在连接属性(sno)上是否相等
如果满足连接条件,则串接后作为结果输出,直到外层循环表中的元组处理完为止
排序-合并方法(sort-merge join 或merge join)
适合连接的诸表已经排好序的情况
排序-合并连接方法的步骤:
如果连接的表没有排好序,先对Student表和SC表按连接属性Sno排序
取Student表中第一个Sno,依次扫描SC表中具有相同Sno的元组
索引连接(index join)方法
步骤:
① 在SC表上建立属性Sno的索引,如果原来没有该索引
② 对Student中每一个元组,由Sno值通过SC的索引查找相应的SC元组
③ 把这些SC元组和Student元组连接起来
循环执行②③,直到Student表中的元组处理完为止
Hash Join方法
把连接属性作为hash码,用同一个hash函数把R和S中的元组散列到同一个hash文件中
步骤:
划分阶段(partitioning phase):
对包含较少元组的表(比如R)进行一遍处理
把它的元组按hash函数分散到hash表的桶中
试探阶段(probing phase):也称为连接阶段(join phase)
对另一个表(S)进行一遍处理
把S的元组散列到适当的hash桶中
把元组与桶中所有来自R并与之相匹配的元组连接起来
排序-合并连接方法的步骤(续):
当扫描到Sno不相同的第一个SC元组时,返回Student表扫描它的下一个元组,再扫描SC表中具有相同Sno的元组,把它们连接起来
重复上述步骤直到Student 表扫描完
Student表和SC表都只要扫描一遍
如果2个表原来无序,执行时间要加上对两个表的排序时间
对于2个大表,先排序后使用sort-merge join方法执行连接,总的时间一般仍会大大减少
上面hash join算法前提:假设两个表中较小的表在第一阶段后可以完全放入内存的hash桶中
一、事务
所谓事务是用户定义的一个数据库操作序列,这些操作要么全做要么全不做,是一个不可分割的工作单位。例如,在关系数据库中,一个事务可以是一条SQL语句、一组SQL语句或者整个程序。
事务和程序是两个概念。一般的讲,一个程序中包含多个事务。
事务的开始和结束可以由用户显示控制。如果用户没有显示的定义事务,则有DBMS按照缺省规定自动划分事务。在SQL中,定义事务的语句有3条:
BEGIN TRANSACTION
COMMIT
ROLLBACK
事务通常以BEGIN TRANSACTION开始,以COMMIT或ROLLBACK结束。COMMIT表示提交,即提交事务的所有操作。具体的说就是将事务中所有对数据库的更新写回到磁盘上的物理数据库中去,事务正常结束。ROLLBACK表示回滚,即在事务运行的过程中发生了某种故障,事务不能继续执行,系统将事务中对数据库的所有已完成的操作全部撤销,回滚到事务开始时的状态。这里的操作指对数据库的更新操作。
二、事务的特性
事务具有四个特性:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)和持续性(Durability)。这四个特性简称为ACID特性(ACID properties)。
1.原子性
事务是数据库的逻辑工作单位,事务中包括的诸操作要么都做,要么都不做。
2.一致性
事务执行的结果必须是使数据库从一个一致性状态变成另一个一致性状态。因此当数据库指包含成功事务提供的结果时,就说数据库处于一致性状态。如果数据库系统运行中发生故障,有些事务尚未完成就被迫中断,这些未完成事务对数据库所做的修改有一部分一写入物理数据库,这时数据库就处于一种不正确的状态,或者说是不一致的状态。例如,在银行中有A、B两个账号,现在公司想从账号A中取出一万元,存入账号B中。那么就可以定义一个事务,改事务包括两个操作,第一个操作是从账号A中减去一万元,第二个操作是向账号B中加入一万元。这两个操作要么全做,要么全不做。全做或者全不做,数据库都处于一致性状态。如果只做一个操作则用户逻辑上就会发生错误,少了一万元,这时数据库就初一不一致性状态。可见一致性与原子性密切相关。
3.隔离性
一个事务的执行不能被其他事务干扰。即一个事务内部的操作及使用的数据对其他并发事务是隔离的,并发执行的各个事务之间不能相互干扰。
4.持续性
持续性也称永久性(Permanence),指一个事务一旦提交,它对数据库中的数据的改变就应该是永久性的。接下来的其他操作或故障不应该对其执行结果有任何影响。
事务是恢复和并发控制的基本单位。所以下面的考虑均与事务为对象。
保证事务ACID特性是事务管理的重要任务。事务ACID特性可能遭到破坏的因素有:
(1)多个事务并行运行时,不同事务的操作交叉执行;
(2)事务在运行过程中被强行停止。
在第一种情况下,数据库管理熊必须保证多个事务的交叉运行不影响这些事务的原子性。在第二种情况下,数据库管理熊必须保证被强行终止的事务对数据库和其他事务没有任何影响。
这些就是数据库管理系统中恢复机制和并发控制机制的责任。