【MySQL技术内幕】43-死锁

1、死锁的概念

死锁是指两个或两个以上的事务在执行过程中,因争夺锁资源而造成的一种互相等待的现象。若无外力作用,事务都将无法推进下去。解决死锁问题最简单的方式是不要有等待,将任何的等待都转化为回滚,并且事务重新开始。毫无疑问,这的确可以避免死锁问题的产生。然而在线上环境中,这可能导致并发性能的下降,甚至任何一个事务都不能进行。而这所带来的问题远比死锁问题更为严重,因为这很难被发现并且浪费资源。

解决死锁问题最简单的一种方法是超时,即当两个事务互相等待时,当一个等待时间超过设置的某一阈值时,其中一个事务进行回滚,另一个等待的事务就能继续进行。
在 InnoDB存储引擎中,参数 innodb_lock_wait_timeout用来设置超时的时间超时机制虽然简单,但是其仅通过超时后对事务进行回滚的方式来处理,或者说其是根据FIFO的顺序选择回滚对象。但若超时的事务所占权重比较大,如事务操作更新了很多行,占用了较多的 undo log,这时采用FIFO的方式,就显得不合适了,因为回滚这个事务的时间相对另一个事务所占用的时间可能会很多。
因此,除了超时机制,当前数据库还都普遍采用wait-for graph(等待图)的方式来进行死锁检测。较之超时的解决方案,这是一种更为主动的死锁检测方式。 InnoDB存储引擎也采用的这种方式。wait-for graph要求数据库保存以下两种信息:

  • 锁的信息链表
  • 事务等待链表

通过上述链表可以构造出一张图,而在这个图中若存在回路,就代表存在死锁,因此资源间相互发生等待。在 wait-for graph中,事务为图中的节点。而在图中,事务T1指向T2边的定义为:

  • 事务T1等待事务T2所占用的资源
  • 事务T1最终等待T2所占用的资源,也就是事务之间在等待相同的资源,而事务T1发生在事务T2的后面
     

下面来看一个例子,当前事务和锁的状态如图所示。

在 Transaction Wait Lists中可以看到共有4个事务t1、t2、t3、t4,故在wait-for graph中应有4个节点。而事务t2对row1占用x锁,事务t1对row2占用s锁。事务t1需要等待事务t2中row1的资源,因此在 wait-for graph中有条边从节点t1指向节点t2。事务t2需要等待事务t1、t4所占用的row2对象,故而存在节点t2到节点t1、t4的边。同样,存在节点t3到节点t1、t2、t4的边,因此最终的 wait-for graph如图所示。


通过图6-6可以发现存在回路(t1,t2),因此存在死锁。通过上述的介绍,可以发现wait-for graph是一种较为主动的死锁检测机制,在每个事务请求锁并发生等待时都会判断是否存在回路,若存在则有死锁,通常来说InnoDB存储引擎选择回滚undo量最小的事务。
wait-for graph的死锁检测通常采用深度优先的算法实现,在 InnoDB1.2版本之前,都是采用递归方式实现。而从1,2版本开始,对 wait-for graph的死锁检测进行了优化,将递归用非递归的方式实现,从而进一步提高了 InnoDB存储引擎的性能。

2、死锁概率

死锁应该非常少发生,若经常发生,则系统是不可用的。此外,死锁的次数应该还要少于等待,因为至少需要2次等待才会产生一次死锁。本节将从纯数学的概率角度来分析,死锁发生的概率是非常小的。
假设当前数据库中共有n+1个线程执行,即当前总共有n+1个事务。并假设每个事务所做的操作相同。若每个事务由r+1个操作组成,每个操作为从R行数据中随机地操作一行数据,并占用对象的锁。每个事务在执行完最后一个步骤释放所占用的所有锁资源。最后,假设nr<<R,即线程操作的数据只占所有数据的一小部分在上述的模型下,事务获得一个锁需要等待的概率是多少呢?当事务获得一个锁,其他任何一个事务获得锁的情况为

(1+2+3+…+r)/(r+1)≈r/2

由于每个操作为从R行数据中取一条数据,每行数据被取到的概率为1/R,因此,事务中每个操作需要等待的概率PW为:

PW=nr/2R

事务是由r个操作所组成,因此事务发生等待的概率PW(T)为:

死锁是由于产生回路,也就是事务互相等待而发生的,若死锁的长度为2,即两个等待节点间发生死锁,那么其概率为:

由于大部分死锁发生的长度为2,因此上述公式基本代表了一个事务发生死锁的概率。从整个系统来看,任何一个事务发生死锁的概率为:

从上述的公式中可以发现,由于m<R,因此事务发生死锁的概率是非常低的。同时,事务发生死锁的概率与以下几点因素有关:

  • 系统中事务的数量(n),数量越多发生死锁的概率越大。
  • 每个事务操作的数量(),每个事务操作的数量越多,发生死锁的概率越大,
  • 操作数据的集合(R),越小则发生死锁的概率越大。

3、死锁的示例

如果程序是串行的,那么不可能发生死锁。死锁只存在于并发的情况,而数据库本身就是一个并发运行的程序,因此可能会发生死锁。下表的操作演示了死锁的一种经典的情况,即A等待B,B在等待A,这种死锁问题被称为AB-BA死锁。

死锁用例1
时间会话A会话B
1BEGIN 
2

SELECT * FROM t WHERE a=1 FOR UPDATE

a:1

BEGIN
3 

SELECT * FROM t WHERE a=2 FOR UPDATE

a:2

4

SELECT * FROM t WHERE a=2 FOR UPDATE

#等待

 
5 SELECT * FROM t WHERE a=1 FOR UPDATE
ERROR 1213(40001): Deadlock found when trying to get lock; try restarting transaction

在上述操作中,会话B中的事务抛出了1213这个错误提示,即表示事务发生了死锁。死锁的原因是会话A和B的资源在互相等待。大多数的死锁 InnoDB存储引擎本身可以侦测到,不需要人为进行干预。但是在上面的例子中,在会话B中的事务抛出死锁异常后,会话A中马上得到了记录为2的这个资源,这其实是因为会话B中的事务发生了回滚,否则会话A中的事务是不可能得到该资源的。
InnoDB存储引擎并不会回滚大部分的错误异常,但是死锁除外。发现死锁后, InnoDB存储引擎会马上回滚一个事务,这点是需要注意的。因此如果在应用程序中捕获了1213这个错误,其实并不需要对其进行回滚。
此外还存在另一种死锁,即当前事务持有了待插入记录的下一个记录的ⅹ锁,但是在等待队列中存在一个S锁的请求,则可能会发生死锁。来看一个例子,首先根据如下代码创建测试表t,并导入一些数据:

CREATE TABLE t(
a INT PRIMARY Key
)ENGINE=InnoDB;
INSERT INTO t VALUES(1),(2),(4),(5);

表t仅有一个列a,并插入4条记录。接着运行下表所示的查询。

死锁用例2
时间会话A会话B
1BEGIN 
2 BEGIN
3SELECT * FROM t WHERE a=4 FOR UPDATE 
4 SELECT * FROM t WHERE a < 4 LOCK IN SHARE MODE
#等待
5INSERT INTO t VALUES(3);
ERROR 1213(40001): Deadlock found when trying to get lock; try restarting transaction
 
6 #事务获得锁,正常运行

可以看到,会话A中已经对记录4持有了X锁,但是会话A中插入记录3时会导致死锁发生。这个问题的产生是由于会话B中请求记录4的S锁而发生等待,但之前请求的锁对于主键值记录1、2都已经成功,若在事件点5能插入记录,那么会话B在获得记录4持有的S锁后,还需要向后获得记录3的记录,这样就显得有点不合理。因此 InnoDB存储引擎在这里主动选择了死锁,而回滚的是 undo log记录大的事务,这与AB-BA死锁的处理方式又有所不同。
 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值