概述
数据库系统常见现象:
-
多用户数据库系统
:允许多个用户同时使用的数据库系统,如飞机定票数据库系统、 银行数据库系统等,在同一时刻并发运行的事务数可达数百上千个 -
多事务执行方式
:
(1)事务串行执行
a) 每个时刻只有一个事务运行,其他事务必须等到这个事务结束以后方能运行
b) 不能充分利用系统资源,发挥数据库共享资源的特点
(2)交叉并发方式(Interleaved Concurrency)
a) 在单处理机系统中,事务的并行执行是这些并行事务的并行操作轮流交叉运行
b) 单处理机系统中的并行事务并没有真正地并行运行,但能够减少处理机的空闲时间,提高系统的效率
(3)同时并发方式(simultaneous concurrency)
a) 多处理机系统中,每个处理机可以运行一个事务,多个处理机可以同时运行多个事务,实现多个事务真正的并行运行
b) 最理想的并发方式,但受制于硬件环境
c) 更复杂的并发方式机制
本章讨论的数据库系统并发控制技术是以单处理机系统为基础的
-
事务并发执行带来的问题
(1) 会产生多个事务同时存取同一数据的情况
(2) 可能会存取和存储不正确的数据,破坏事务隔离性和数据库的一致性
-
并发控制的重要性
:数据库管理系统必须提供并发控制机制
并发控制机制是衡量一个数据库管理系统性能
的重要标志之一
11.1 并发控制概述
-
事务是并发控制的基本单位
-
并发控制机制的任务
(1) 对并发操作进行正确调度
(2) 保证事务的隔离性
(3) 保证数据库的一致性 -
并发操作带来的数据不一致性
:因为并发操作破坏了事务的隔离性,造成的后果如下:
(1) 丢失修改(Lost Update)
(2) 不可重复读(Non-repeatable Read)
(3) 读“脏”数据(Dirty Read) -
并发控制的主要技术
:
(1) 封锁(Locking)
(2) 时间戳(Timestamp)
(3) 乐观控制法
(4) 多版本并发控制(MVCC)
我们将主要介绍封锁技术
约定记号:
R(x): 读数据x
W(x): 写数据x
11.1.1 丢失修改
两个事务 T 1 T_1 T1和 T 1 T_1 T1 读入同一数据并修改, T 1 T_1 T1的提交结果破坏了 T 1 T_1 T1提交的结果,导致 T 1 T_1 T1的修改被丢失。
11.1.2 不可重复读
不可重复读是指事务 T 1 T_1 T1 读取数据后,事务 T 2 T_2 T2执行更新操作,使 T 1 T_1 T1无法再现前一次读取结果。
不可重复读包括三种情况:
-
情况1
• 事务 T 1 T_1 T1读取某一数据
•事务
T 2 T_2 T2对其做了修改
• 当事务 T 1 T_1 T1再次读该数据时,得到与前一次不同的值
-
情况2
• 事务 T 1 T_1 T1按一定条件从数据库中读取了某些数据记录
•事务
T 2 T_2 T2删除了其中部分记录
• 当 T 1 T_1 T1 再次按相同条件读取数据时,发现某些记录神
秘地消失了。 -
情况3
• 事务 T 1 T_1 T1 按一定条件从数据库中读取某些数据记录
•事务
T 2 T_2 T2插入了一些记录
• 当 T 1 T_1 T1再次按相同条件读取数据时,发现多了一些记录
后两种不可重复读有时也称为
幻影现象
(Phantom Row)
11.1.3 读“脏”数据
读“脏”数据是指:
T
2
T_2
T2读到了被
T
1
T_1
T1 取消修改的数据
• 事务
T
1
T_1
T1 修改某一数据,并将其写回磁盘
• 事务
T
2
T_2
T2 读取同一数据后,
T
1
T_1
T1 由于某种原因被撤销
• 这时
T
1
T_1
T1 已修改过的数据恢复原值,
T
2
T_2
T2读到的数据就与数据库中的数据不一致
•
T
2
T_2
T2读到的数据就为“脏”数据,即不正确的数据
11.2 封锁
11.2.1 封锁定义
- 封锁就是事务T在对某个数据对象(例如表、记录等)操作之前,先向系统发出请求,对其加锁
- 加锁后事务T就对该数据对象有了一定的控制,在事务T释放它的锁之前,其它的事务不能更新此数据对象。
- 封锁就是事务T在对某个数据对象(例如表、记录等)操作之前,先向系统发出请求,对其加锁
- 加锁后事务T就对该数据对象有了一定的控制,在事务T释放它的锁之前,其它的事务不能更新此数据对象。
- 封锁是实现并发控制的一个非常重要的技术
- 一个事务对某个数据对象加锁后究竟拥有什么样的控制由封锁的类型决定。
11.2.2 基本封锁类型
基本封锁类型:
-
排它锁(Exclusive Locks,简记为X锁)
(1) 若事务T对数据对象A加上X锁,则只允许T读取和修改A,其它任何事务都不能再对A加任何类型的锁,直到T释放A上的锁
(2) 保证其他事务在T释放A上的锁之前不能再读取和修改A
(3) 排它锁又称为写锁
-
共享锁(Share Locks,简记为S锁)
(1) 若事务T对数据对象A加上S锁,则事务T可以读A但不能修改A,其它事务只能再对A加S锁,而不
能加X锁,直到T释放A上的S锁
(2) 保证其他事务可以读A,但在T释放A上的S锁之前不能对A做任何修改
(3) 共享锁又称为读锁
-
锁的相容矩阵
11.2.3 封锁协议(三级封锁协议)
-
定义
:在运用X锁
和S锁
对数据对象加锁时,需要约定一些规则
,这些规则为封锁协议(Locking Protocol)。
(1) 何时申请X锁或S锁
(2) 持锁时间
(3) 何时释放
对封锁方式规定不同的规则,就形成了各种不同的封锁协议,在不同的程度上保证并发操作的正确调度。 -
三级封锁协议
:保持数据一致性的常用封锁协议
(1) 一级封锁协议:事务T在修改数据R之前必须先对其加X锁,直到事务结束才释放
。
a) 正常结束(COMMIT)
b) 非正常结束(ROLLBACK)
作用:一级封锁协议可防止丢失修改,并保证事务T是可恢复的。
缺点:但是如果仅仅是读数据不对其进行修改,是不需要加锁的,所以它不能保证可重复读和不读“脏”数据。
(2) 二级封锁协议:一级封锁协议加上事务T在读取数据R之前必须先对其加S锁,读完后即可释放S锁
。
作用:二级封锁协议可以防止丢失修改和读“脏”数据。
缺点:在二级封锁协议中,由于读完数据后即可释放S锁,所以它不能保证可重复读。
(3) 三级封锁协议:一级封锁协议加上事务T在读取数据R之前必须先对其加S锁,直到事务结束才释放
。
作用:三级封锁协议可防止丢失修改、读脏数据和不可重复读。
-
三级协议的主要区别
: 什么操作需要申请封锁以及何时释放锁(即持锁时间) -
不同的封锁协议使事务达到的一致性级别不同
封锁协议级别越高,一致性程度越高
在三级封锁协议中,写锁都是长锁,在事务结束时释放。请思考,如果在一级封锁协议中,将写锁改为短锁,是否能防止丢失修改?如果能,请说明理由。如果不能,请给出实例。
11.2.4 活锁和死锁
封锁技术可以有效地解决并行操作的一致性问题,但也带来一些新的问题
11.2.4.1 活锁
-
活锁
:存在忙等其他事务释放锁
现象 -
避免活锁
: 采用先来先服务
的策略。当多个事务请求封锁同一数据对象时,按请求封锁的先后次序对这些事务排队,该数据对象上的锁一旦释放,首先批准申请队列中第一个事务获得锁
11.2.4.2 死锁
-
死锁
:两个或多个事务都已封锁了一些数据对象,然后又都请求对已为其他事务封锁的数据对象加锁,从而出现死等待。即存在多个事务使用的数据被相互加锁,都在等待对方先释放锁
。 -
预防死锁的方法
:预防死锁的发生就是要破坏产生死锁的条件
(1) 一次封锁法 :要求每个事务必须一次将所有要使用的数据全部加锁
,否则就不能继续执行
存在的问题:
a)过早加锁,降低系统并发度
b)难于事先精确确定封锁对象
数据库中数据是不断变化的,原来不要求封锁的数据,在执行过程中可能会变成封锁对象,所以很难事先精确地确定每个事务所要封锁的数据对象。
解决方法 : 将事务在执行过程中可能要封锁的数据对象全部加锁,这就进一步降低了并发度。
(2) 顺序封锁法:顺序封锁法是预先对数据对象规定一个封锁顺序
,所有事务都按这个顺序实行封锁
存在的问题:
a)维护成本
数据库系统中封锁的数据对象极多,并且随数据的插入、删除等操作而不断地变化,要维护这样的资源的封锁顺序非常困难,成本很高。
b)难于事先精确确定封锁对象
事务的封锁请求可以随着事务的执行而动态地决定,很难事先确定每一个事务要封锁哪些对象,因此也就很难按规定的顺序去施加封锁
结论
- 在操作系统中广为采用的预防死锁的策略并不太适合数据库的特点
数据库管理系统在解决死锁的问题上更普遍采用的是诊断并解除死锁的方法
11.2.4.3 死锁的诊断与解除
死锁的诊断
(1)超时法
:如果一个事务的等待时间超过了规定的时限,就认为发生了死锁。
优点:实现简单
缺点:a)有可能误判死锁 b)时限若设置得太长,死锁发生后不能及时发现
(2)等待图法
:用事务等待图动态反映所有事务的等待情况
• 事务等待图是一个有向图G=(T,U)
• T为结点的集合,每个结点表示正运行的事务
• U为边的集合,每条边表示事务等待的情况
• 若 T 1 T_1 T1 等待 T 2 T_2 T2,则 T 1 T_1 T1 , T 2 T_2 T2 之间划一条有向边,从 T 1 T_1 T1指向 T 2 T_2 T2
并发控制子系统周期性地(比如每隔数秒)生成事务等待图,检测事务。如果发现图中存在回路,则表示系统中出现了死锁
。
解除死锁
a) 选择一个处理死锁代价最小的事务,将其撤消
b) 释放此事务持有的所有的锁,使其它事务能继续运行下去
11.2.5 封锁粒度
11.2.5.1 封锁粒度概述
-
封锁粒度定义
:封锁对象的大小
称为封锁粒度(Granularity) -
封锁的对象
:逻辑单元
,物理单元
。以关系数据库中的封锁对象为例:
1) 逻辑单元: 属性值、属性值的集合、元组、关系、索引项、整个索引、整个数据库等
2) 物理单元:页(数据页或索引页)、物理记录等 -
封锁粒度对系统的影响
:封锁粒度与系统的并发度
和并发控制的开销
密切相关。
1) 封锁的粒度越大,数据库所能够封锁的数据单元就越少,并发度就越小,系统开销也越小;
2) 封锁的粒度越小,并发度较高,但系统开销也就越大 -
选择封锁粒度的原则
:同时考虑封锁开销和并发度两个因素, 适当选择封锁粒度
1) 需要处理大量元组的用户事务:以关系为封锁单元
2) 需要处理多个关系的大量元组的用户事务:以数据库为封锁单位
3) 只处理少量元组的用户事务:以元组为封锁单位 -
多粒度封锁
(Multiple Granularity Locking):在一个系统中同时支持多种封锁粒度供不同的事务选择
[封锁粒度选择示例1]
例1:事务T 1 需要修改元组L 1 ,事务T 2 需要修改元组L 2 , L 1
和L 2 位于同一个数据页面A。
- 若封锁粒度是数据页,事务T 1 需要对数据页A加锁,T 2被迫等待,直到T 1 释放A。
- 如果封锁粒度是元组,则T 1 和T 2 可以同时对L 1 和L 2 加锁,不需要互相等待,提高了系统的并行度。
封锁粒度越小,并发度越高
。
[封锁粒度选择示例1]
例2:事务T 3 需要读取整个表
- 若封锁粒度是元组,T 3 必须对表中的每一个元组加锁,开销极大
- 若封锁粒度是关系,T 3 只需要一次加锁
- 若锁粒度是数据页呢?
封锁粒度越小,封锁开销越大。
11.2.5.2 多粒度封锁
-
多粒度树
1) 以树形结构来表示多级封锁粒度
2) 根结点是整个数据库,表示最大的数据粒度
3) 叶结点表示最小的数据粒度 -
允许多粒度树中的每个结点被独立地加锁
-
对一个结点加锁意味着这个结点的所有后裔结点也被加以同样类型的锁
-
在多粒度封锁中一个数据对象可能以两种方式封锁
:显式封锁
和隐式封锁
1) 显式封锁: 直接加到数据对象上的封锁
2) 隐式封锁:是该数据对象没有独立加锁,是由于其上级结点加锁而使该数据对象加上了锁
显式封锁和隐式封锁的效果是一样的 -
系统检查封锁冲突时
1) 要检查显式封锁
2) 还要检查隐式封锁
-
对某个数据对象加锁,系统要检查
1) 该数据对象:有无显式封锁与之冲突
2) 所有上级结点: 检查本事务的显式封锁是否与该数据对象上的隐式封锁冲突(由上级结点已加的封锁造成的)
3) 所有下级结点: 看上面的显式封锁是否与本事务的隐式封锁(将加到下级结点的封锁)冲突
11.2.5.2 多粒度封锁
引进意向锁目的
(intention lock):提高对某个数据对象加锁时系统的检查效率- 如果对一个结点加意向锁,则说明该结点的
下层结点
正在被加锁 - 对任一结点加基本锁,必须
先
对它的上层结点加意向锁
常用意向锁
:
1) 意向共享锁 (Intent Share Lock,简称IS锁) : 如果对一个数据对象加 IS锁,表示它的后裔结点拟(意向)加S锁。
2) 意向排它锁 (Intent Exclusive Lock,简称IX锁):如果对一个数据对象加IX锁,表示它的后裔结点拟(意向)加X锁。
3) 共享意向排它锁(Share Intent Exclusive Lock,简称SIX锁):如果对一个数据对象加SIX锁,表示对它加S锁,再加IX锁,即SIX = S + IX。
数据锁的相容矩阵
:
锁的强度
: 锁的强度是指它对其他锁的排斥程度。 一个事务在申请封锁时以强锁代替弱锁是安全的,反之则不然
具有意向锁的多粒度封锁方法
:
1) 申请封锁时应该按自上而下的次序进行
2) 释放封锁时则应该按自下而上的次序进行
具有意向锁的多粒度封锁方法
:
1) 提高了系统的并发度
2) 减少了加锁和解锁的开销
3) 在实际的数据库管理系统产品中得到广泛应用
11.3 并发调度的可串行性
- 数据库管理系统对并发事务不同的调度可能会产生不同的结果
- 串行调度是正确的
- 执行结果等价于串行调度的调度也是正确的,称为可串行化调度
11.3.1 可串行化调度
可串行化调度
(Serializable): 多个事务的并发执行是正确的,当且仅当其结果与按某一次序串行地执行这些事务时的结果相同可串行性
(Serializability):是并发事务正确调度的准则。一个给定的并发调度,当且仅当它是可串行化的,才认为是正确调度
[例] 现在有两个事务,分别包含下列操作:
- 事务T1:读B;A=B+1;写回A
- 事务T2:读A;B=A+1;写回B
现给出对这两个事务不同的调度策略
11.3.2 冲突可串行化调度
冲突操作
:是指不同
的事务对同一
数据的读写操作和写写操作:
1) R i ( x ) R_ i (x) Ri(x)与 W j ( x ) W_j (x) Wj(x) /* 事务 T i T_i Ti 读 x x x, T j T_j Tj 写 x x x,其中 i ≠ j i≠j i=j */
2) W i ( x ) W_ i(x) Wi(x)与 W j ( x ) W_j(x) Wj(x) /* 事务 T i T_i Ti 写 x x x, T j T_j Tj 写 x x x,其中 i ≠ j i≠j i=j */
涉及同一个数据库元素, 并且至少有一个是写操作不冲突操作
:
1) R i ( x ) R_ i (x) Ri(x); R j ( y ) R_j(y) Rj(y) 读
2) R i ( x ) R_ i (x) Ri(x); W j ( y ) W_j(y) Wj(y), x x x不等于 y y y
3) W i ( x ) W_i (x) Wi(x); R j ( y ) R_j(y) Rj(y), x x x不等于 y y y
4) W i ( x ) W_i (x) Wi(x); W j ( y ) W_j (y) Wj(y), x x x不等于 y y y不能交换(Swap)的动作
:
1) 同一事务的两个操作
2) 不同事务的冲突操作
• R i ( x ) R_ i (x) Ri(x)与 W j ( x ) W_j (x) Wj(x)
• W i ( x ) W_ i(x) Wi(x)与 W j ( x ) W_j(x) Wj(x)
冲突可串行化
: 一个比可串行化更严格的条件冲突可串行化的调度
:一个调度 S c S_c Sc 在保证冲突操作的次序不变的情况下
,通过交换两个事务不冲突操作的次序得到另一个调度
S c ’ S_c’ Sc’,如果 S c ’ S_c’ Sc’是串行的,称调度 S c S_c Sc 是冲突可串行化的调度.冲突可串行化调度是
可串行化调度的
充分条件
,不是必要条件
。还有"不满足冲突可串行化条件"的可串行化调度。
[可串行化示例]
今有3个事务的一个调度
r3(B) r1(A) w3(B) r2(B) r2(A) w2(B) r1(B) w1(A)
判断该调度是否是冲突可串行化的调度。
S c 1 S_c1 Sc1 = r3(B) r1(A) w3(B) r2(B) r2(A) w2(B) r1(B) w1(A)
= r3(B) w3(B) r1(A) r2(B) r2(A) w2(B) r1(B) w1(A)
= r3(B) w3(B) r2(B) r2(A) w2(B) r1(A) r1(B) w1(A)
S c 2 S_c2 Sc2 = r3(B) w3(B) r2(B) r2(A) w2(B) r1(A) r1(B) w1(A)
所以 S c 1 S_c1 Sc1是冲突可串行化的调度。
[不可串行化示例]
不能通过无冲突交换将 S d S_d Sd变换为串行调度
所以 S d S_d Sd不是冲突可串行化的调度
[充分不必要示例]
[例11.4]有3个事务
T 1 T_1 T1= W 1 ( Y ) W 1 ( X ) W_1 (Y)W_1 (X) W1(Y)W1(X), T 2 = W 2 ( Y ) W 2 ( X ) T_2 =W_2 (Y)W_2 (X) T2=W2(Y)W2(X), T 3 = T_3 = T3=W_3 (X)$
• 调度 L 1 = W 1 ( Y ) W 1 ( X ) W 2 ( Y ) W 2 ( X ) W 3 ( X ) L_1 =W_1 (Y)W_1 (X)W_2 (Y)W_2 (X) W_3 (X) L1=W1(Y)W1(X)W2(Y)W2(X)W3(X)是一个串行调度。
• 调度 L 2 = W 1 ( Y ) W 2 ( Y ) W 2 ( X ) W 1 ( X ) W 3 ( X ) L_2 =W_1 (Y)W_2 (Y)W_2 (X)W_1 (X)W_3 (X) L2=W1(Y)W2(Y)W2(X)W1(X)W3(X)不满足冲突可串行化。
但是调度 L 2 L_2 L2 是可串行化的,因为 L 2 L_2 L2 执行的结果与调度 L 1 L_1 L1 相同,Y的值都等于 T 2 T_2 T2 的值,X的值都等于 T 3 T_3 T3 的值
11.3.3 两段锁协议
判定一个调度是否是冲突可串行化的,
11.3.2 中学习了一种方法,就是对无冲突操作进行交换,看看能否将其转换为串行调度
。当并发事务数目比较多时,这种方法的效率可能会存在问题。是否还有其他更高效的判定方法呢?
数据库管理系统普遍采用两段锁协议
的方法实现并发调度的可串行性,从而保证调度的正确性
11.3.3.1 两段锁基本概念
两段锁协议
:指所有事务
必须分两个阶段
对数据项加锁和解锁
1) 在对任何数据进行读、写操作之前,事务首先要获得对该数据的封锁
2) 在释放一个封锁之后,事务不再申请和获得任何其他封锁“两段”锁的含义
:事务分为两个阶段
1) 扩展阶段:第一阶段是获得封锁,也称为扩展阶段
事务可以申请获得任何数据项上的任何类型的锁,但是
不能释放任何锁
2) 收缩阶段:第二阶段是释放封锁,也称为收缩阶段
事务可以释放任何数据项上的任何类型的锁,但是不能再申请任何锁事务遵守两段锁协议是可串行化调度的充分条件,而不是必要条件。
若并发事务都遵守两段锁协议,则对这些事务的任何并发调度策略都是可串行化的
若并发事务的一个调度是可串行化的,不一定所有事务都符合两段锁协议
遵守两段锁协议的事务可能发生死锁
[遵循两段锁的示例]
事务 T i T_i Ti 遵守两段锁协议,其封锁序列是 :
Slock A Slock B Xlock C Unlock B Unlock A Unlock C;
|← 扩展阶段 →| |← 收缩阶段 →|
[不遵循两段锁的示例]
事务 T j T_j Tj 不遵守两段锁协议,其封锁序列是:
Slock A Unlock A Slock B Xlock C Unlock C Unlock B;
[验证遵循两段锁协议的是可串行化调度]
L 1 = R 1 ( A ) W 2 ( B ) L_1 =R_1 (A)W_2 (B) L1=R1(A)W2(B) W 1 ( C ) W_1 (C) W1(C) W 2 ( A ) W_2 (A) W2(A)
利用冲突交换原则可以交换得到
L S L_S LS = R 1 ( A ) W 1 ( C ) R_1 (A)W_1 (C) R1(A)W1(C) W 2 ( B ) W 2 ( A ) W_2 (B)W_2 (A) W2(B)W2(A)
11.3.3.2 两段锁协议与防止死锁的一次封锁法
类别 |
|
|
---|---|---|
一次封锁法 | 一次封锁法要求每个事务必须一次将所有要使用的数据 全部加锁,否则就不能继续执行。 | 因此一次封锁法遵守两段锁协议 |
两段锁协议 | 但是两段锁协议并不要求事务必须一次将所有要使用的 数据全部加锁。因此遵守两段锁协议的事务可能发生死锁 |
|