目录
一、多事务执行的方式
- 事务串行执行:每个时刻只有一个事务运行,其他事务必须等到这个事务结束才能运行;在事务执行过程中需要用到不同的资源时(如CPU,磁盘)发挥不了数据库共享资源的能力。
- 交叉并发方式
- 在单处理机系统中,事务的并行执行是这些并行事务的并行操作轮流交叉运行;
- 单处理机系统中的并行事务并没有真正地并行运行,但能够减少处理机的空闲时间,提高系统的效率;
- 同时并发方式
- 多处理机系统,每个处理机可以运行一个事务,多个处理机可以同时运行多个事务,实现多个事务真正的并行运行;
- 受制于硬件环境,需要更复杂的并发控制机制。
二、事务并发执行带来的问题
- 会产生多个事务同时存取同一数据的情况;
- 可能会存取和存储不正确的数据,破坏事务一致性和数据库的一致性;
- 解决方式:数据库管理系统必须提供并发控制机制(并发控制机制是衡量一个数据库管理系统-DBMS性能的重要标志之一)
三、并发控制概述
并发控制机制的任务
- 对并发操作进行正确调度
- 保证事务的隔离性
- 保证数据库的一致性
上图所示为数据库的不一致性,由并发操作引起,在并发操作下,对甲乙两个事务的操作序列调度是随机的;按序号执行,甲修改后的数据就发生了丢失。
并发操作带来的数据不一致性(重要)
- 幻读
- 不可重复读
- 脏读
- 丢失修改
1. 丢失修改——“写-写冲突”
解释:两个事务T1和T2读入同一数据并修改,T2的提交结果破坏了T1提交的结果,导致T1的修改被丢失。
2. 脏读——“读-写冲突”
(还没提交我就先读了,结果它撤销了,读到了中间过程的量,与数据库中的原始数据不一致)
解释:T1将C值修改为200,T2读到C为200;T1由于某种原因撤销,其修改作废,C恢复原值100,这时T2读到的C为200,与数据库内容不一致, 就是“脏”数据;
3. 不可重复读——“读-写冲突”
(T1读取数据后,由于T2对该数据执行了更新操作,当T1再次读取的时候无法得到原始的数据)
解释:T1读取B=100进行运算,T2读取同一数据B,对其进行修改后将B=200写回数据库,T1为了对读取值校对重读B,B已为200,与第一次读取值不一致。
4. 幻读——幻影现象
(其实和不可重复读有点类似)
幻读也称作幻影(phantom row)现象,是指事务T1读取数据后,事务T2执行插入或删除操作,使T1无法再现前 一次读取结果。
1. 事务T1按一定条件从数据库中读取某些数据记录后,事务T2删除了其中部分记录,当T1再次按相同条件读取数据时,发现某些记录 “神秘地”消失了;
2. 事务T1按一定条件从数据库中读取某些数据记录后,事务T2插入了一些记录,当T1再次按相同条件读取数据时,发现多了一些记录。
简言之:T1读取,T2修改,T1再读,发现不对!!!
重要:
- 数据的不一致性:由于并发操作破坏了事务的隔离性!
- 并发控制的作用:利用正确的方式调度并发操作,使一个用户的事务执行不受其他事务的干扰,避免数据的不一致性
5. 并发控制技术
- 封锁
- 时间戳
- 乐观方法
- 多版本控制方法
商用的DBMS很多都采用封锁方法
四、事务的隔离级别
并发控制越严,事务的隔离性就越强,数据的一致性就有保障,缺点是系统效率的降低
事务的隔离级别并不是越高越好,应根据应用的特点和需求选择合适的事务隔离级别!!!
四种隔离级别由低到高排列如下:(重要)
- 读未提交
- 读已提交——Oracle级别
- 可重复读——MySQL默认级别
- 可串行化
1. 读未提交
“读未提交”是允许一个事务可以读取另一个未提交事务正在修改的数据。它可能出现脏读、不可重复读 和幻读的情形。
2. 读已提交
“读已提交”是只允许一个事务读其他事务已提交的数据。显然,“读已提交”可以有效避免读脏读,但是它不能保证可重复读和不幻读。
3. 可重复读
“可重复读”是一个事务开始读取数据后,其他事务就不能再对该数据执行UPDATE操作,杜绝了脏读和不可重复读,不能保证不幻读。(只是杜绝不能更新,不能保证不插入和删除,所以不能保证不幻读)
4. 可串行化——最高的事务隔离级别
事务执行顺序是可串行化的,可以避免丢失修改、脏读、不可重复读和幻读。
五、封锁——开始讲并发控制咯
1. 什么是封锁
- 封锁就是事务T在对某个数据对象(例如表、记录 等)操作之前,先向系统发出请求,对其加锁;
- 加锁后事务T就对该数据对象有了一定的控制,在事务T释放它的锁之前,其它的事务不能更新此数据对象。
2. 基本锁类型
1. 排他锁——X锁——写锁
若事务T对数据对象A加上X锁,则只允许T读取和修改A,其它任何事务都不能再对A加任何类型的锁,直到T释放A上的锁;
(通俗的讲是加了X锁,只能自己使用这个数据对象,别人加不了锁,也用不了这个数据,除非自己主动释放锁)
2. 共享锁——S锁——读锁
a. 若事务T对数据对象A加上S锁,则其它事务只能再对A加S锁,而不能加X锁,直到T释放A上的S锁;(简单来说就是能加锁,但是只能加S锁)
b. 可以保证其他事务可以读取数据对象A,但在T释放A上的S锁之前 不能对A做任何修改;
六、封锁协议—— 封锁协议越高,一致性程度越高
目的:对数据对象加锁时约定一些规则
- 何时申请封锁
- 何时释放封锁等
- 持锁时间
三级封锁协议:(重要)
1. 一级封锁协议
事务T在修改数据R之前必须先对其加X锁,直到事务结束才释放。事务结束包括正常结束(COMMIT)和非正常结束( ROLLBACK)。
作用:一级封锁协议可以防止丢失修改!!!(Only的作用)
注意:在一级封锁协议中,如果仅仅是读取数据而不对其进行修改,是不需要枷锁的,所以不能保证可重复读和不读脏数据。
为什么不能保证?答案可以去看上面的读脏数据和不可重复读图片
- 不能保证可重复读:我仅仅在事务T1中读取两次数据R,那么T1是不需要加锁的,但是T2事务是可以对数据R进行修改,当T1再次读取的时候可能就变了!
- 不能保证不读脏数据:这里涉及一级封锁协议的事务结束对锁的释放,一级封锁协议中,rollback也属于事务结束,就算T1事务对数据R进行了加锁,但是如果T1在最后利用rollback回滚,并且在某些隔离级别下(比如读未提交)仍然允许读取T1未提交的事务,那么就不能保证了。
脏读的可能性主要取决于数据库系统在并发情况下的实际实现方式和隔离级别。
2. 二级封锁协议
一级封锁协议加上事务T在读取数据R之前必须先对其加S 锁,读完后方可释放S锁。
(简单来说就是首先存在一级封锁协议,然后就是增加S锁的功能,但是S锁读完就释放,持锁时间短)
作用:解决丢失修改(一级的作用)和脏读问题(加上S锁的作用)!!!
注:不能保证可重复读,为什么?
比如说事务T1读取数据A和数据B,那么要对其加S锁,读完之后就释放了,那么事务T2就有可乘之机,T2事务在T1事务读取完之后就增加了X锁对数据A进行了修改,当T2释放锁之后T1事务再读就和原始数据不一样了。
3. 三级封锁协议
一级封锁协议加上事务T在读取数据R之前必须先对其加S锁,直到事务结束才释放。(简单来说就是相比于二级封锁协议,三级封锁协议S锁的持锁时间更长了)
作用:可以解决丢失修改,脏读和不可重复读!!!
4. 封锁协议小结
- 三级协议的主要区别:什么操作需要申请封锁以及何时释放锁(即持锁时间)
- 不同的封锁协议使事务达到的一致性级别不同
七、死锁与活锁——封锁技术问题
1. 活锁(出现永远等待)
- 事务T1封锁了数据R;
- 事务T2又请求封锁R,于是T2等待;
- T3也请求封锁R,当T1释放了R上的封锁之后系统首先批准了T3的请求,T2仍然等待;
- T4又请求封锁R,当T3释放了R上的封锁之后系统又批准了T4的请求……
- T2有可能永远等待,这就是活锁的情形。
避免活锁的方式:(重要)先来先服务策略!!!
通俗的讲就是,当多个事务请求封锁同一个数据对象的时候,谁先发出请求谁就先拥有封锁权。
2. 死锁(交叉封锁)
- 事务T1封锁了数据R1;
- 接着T2又申请封锁R1,因T1已封锁了R1,T2也只能等待T1释放R1上的锁;
- T1又请求封锁R2,因T2已封锁了R2,于是T1等待T2释放R2上的锁;
- T2封锁了数据R2;
- 这样T1在等待T2,而T2又在等待T1,T1和T2两个事务永远不能结束,形成死锁。
避免办法:(重要)1. 预防死锁 2. 死锁的诊断与解除
3. 死锁的预防——即破坏产生死锁的条件
1. 一次封锁法
要求每个事务必须一次将所有要使用的数据全部加锁,否则就不能继续执行;
问题:降低系统的并发度;一次就将以后要用到的全部数据加锁,势必扩大了封锁的范围;很难于事先精确地确定每个事务所要封锁的数据对象, 为此只能扩大封锁范围。
2. 顺序封锁法
顺序封锁法是预先对数据对象规定一个封锁顺序,所有事务都按这个顺序实行封锁。
问题:维护成本:数据库系统中封锁的数据对象极多,并且在不断地变化;难以实现:很难事先确定每一个事务要封锁哪些对象。
总结:预防死锁策略不是很合适,考虑诊断与解除!!!
4. 死锁的诊断与解除
1. 超时法
如果一个事务的等待时间超过了规定的时限,就认为发生了死锁;
优点:实现简单;缺点:容易误判
2. 事务等待图法
用事务等待图动态反映所有事务的等待情况。
事务等待图是一个有向图G=(T,U)
- T为结点的集合,每个结点表示正运行的事务;
- U为边的集合,每条边表示事务等待的情况;
- 若T1等待T2,则T1,T2之间划一条有向边,从T1指向 T2;
- U为边的集合,每条边表示事务等待的情况;
总结:并发控制子系统周期性地(比如每隔数秒)生成事务等待图,检测事务。如果发现图中存在回路,则表示系统中出现了死锁。
3. 解除死锁
选择一个处理死锁代价最小的事务,将其撤消,释放此事务持有的所有的锁,使其它事务能继 续运行下去。
八、并发调度的可串行性
DBMS对并发事务不同的调度可能会产生不同的结果。
什么样的调度是正确的?
- 串行调度是正确的;
- 执行结果等价于串行调度的调度也是正确的,称为可串行化调度;
1. 可串行化调度——好好理解
多个事务的并发执行是正确的,当且仅当其结果与按某一次序串行地执行这些事务时的结果相同。
2. 可串行性
- 是并发事务正确调度的准则;
- 一个给定的并发调度,当且仅当它是可串行化的,才认为是正确调度;
3. 冲突可串行化调度
- 一个比可串行化更严格的条件;
- 商用系统中的调度器采用;
冲突操作是指不同的事务对同一个数据的读写操作和写写操作;
(只有这两种,其他操作不是冲突操作)
注:不同事务的冲突操作和同一事务的两个操作不能交换(Swap)
4. 可串行化调度的充分条件
- 一个调度Sc在保证冲突操作的次序不变的情况下,通过交换两个事务不冲突操作的次序得到另一个调度Sc‘, 如果Sc’是串行的,称调度Sc为冲突可串行化的调度;
- 一个调度是冲突可串行化,一定是可串行化的调度;
冲突可串行化调度是可串行化调度的充分条件,不是必要条件。还有不满足冲突可串行化条件的可串行化调度。
九、两段锁协议——是可串行化调度
指所有事务必须分两个阶段对数据项加锁和解锁
- 在对任何数据进行读、写操作之前,事务首先要获得对该数据的封锁;
- 在释放一个封锁之后,事务不再申请和获得任何其他封锁;
- 第一阶段——获得封锁,也叫扩展阶段
事务可以申请获得任何数据项上的任何类型的锁,但是不能释放任何锁
2. 第二阶段——释放封锁,也叫收缩阶段
事务可以释放任何数据项上的任何类型的锁,但是不能再申请任何锁
又一个充分条件:事务遵守两段锁协议是可串行化调度的充分条件,而不是必要条件;
重点:
1. 若并发事务都遵守两段锁协议,则对这些事务的任何并发调度策略都是可串行化;
2. 若并发事务的一个调度是可串行化的,不一定所有事务都符合两段锁协议。
预防死锁的一次封锁法一定遵循两段锁协议,但两段锁协议并不要求事务必须一次将所有要使用的数据全部加锁,所以遵循两段锁协议的事务仍可能发生死锁。
十、封锁粒度—— 与系统的并发度和并发控制的开销密切相关
封锁对象的大小称为封锁粒度。封锁的对象包括逻辑单元,物理单元。
eg. 在关系数据库中,封锁对象有:
- 逻辑单元: 属性值、属性值集合、元组、关系、索引项、整个索引、整个数据库等
- 物理单元:页(数据页或索引页)、物理记录等
a)封锁的粒度越大,数据库所能够封锁的数据单元就越少,并发度就越小,系统开销也越小;
b) 封锁的粒度越小,并发度较高,但系统开销也就越大;
多粒度封锁:在一个系统中同时支持多种封锁粒度供不同的事务选择
选择封锁粒度——同时考虑封锁开销和并发度,适当选择封锁粒度
- 需要处理多个关系的大量元组的用户事务:以数据库为封锁单位;
- 需要处理大量元组的用户事务:以关系为封锁单元;
- 只处理少量元组的用户事务:以元组为封锁单位;
十一、总结
- 数据共享与数据一致性是一对矛盾;
- 数据库的价值在很大程度上取决于它所能提供的数据共享度;
- 数据共享在很大程度上取决于系统允许对数据并发操作的程度;
- 数据并发程度又取决于数据库中的并发控制机制;
- 数据的一致性也取决于并发控制的程度。施加的并发控制愈多,数据的一致性往往愈好;
- 数据库的并发控制以事务为单位;
- 数据库的并发控制通常使用封锁机制;
- 并发控制机制调度并发事务操作是否正确的判别准则是可串行性;
- 并发操作的正确性则通常由两段锁协议来保证;
- 两段锁协议是可串行化调度的充分条件,但不是必要条件;