oracle rac死锁,深入剖析:RAC的全局死锁问题

0abf9deaa2524d76aad60671831b812f.png

杨廷琨(yangtingkun)

云和恩墨 CTO

高级咨询顾问,Oracle ACE 总监,ITPUB Oracle 数据库管理版版主

编辑手记:数据库的死锁问题可能大家并不陌生,那么单实例和RAC数据库中,死锁有什么区别呢,如何避免RAC的全局死锁呢,我们拣选了老杨的博客,跟大家一起分享。

RAC的全局死锁时间检测

对于单实例数据库而言,死锁的检测在秒级完成,而RAC环境则死锁的检测时间默认达到了1分钟。单实例环境如果出现了死锁,那么马上其中一个进程就被中止,用户可以快速的得到错误返回。而对于RAC而言,死锁的检测并不是实时完成,而是需要60秒左右的时间。

会话1执行:

ec122351b1e1e74177e254d64ee369d3.png

会话2执行:

44ee340adb2357f0a8b188550348f6ad.png

此时,会话2等待会话1的最终操作,下面会话1更新被会话2锁定的行,引发死锁:

7cf4ce32419341ccec1fd6dc660238d6.png

可以看到,死锁的超时检测为1分钟。而这个死锁的检测时间是可以调整的,Oracle通过隐含参数_lm_dd_interval控制:

a9066df5c180f4272863485492970a61.png

再次测试死锁的检测时间,会话1:

90725d76039f8bb7c12cefd4c56cfe50.png

会话2执行更新:

38b2853394daf6093c644512ac74ac31.png

会话1执行更新引发死锁:SQL> UPDATE t_deadlock SET name = 'b1' WHERE id = 2;

大约30秒后,会话2报错ORA-60:

176a07a7fe121aa572e856ef5903db27.png

在10.2.0.2版本上,Oracle存在一个bug,允许这个参数设置为0,在10.2.0.3以后,这个bug被修正,如果设置为0后,则数据库无法正常启动:

63fa9a5273e01cbcd780ea4dccf83f2c.png

最后修改隐含参数是Oracle不推荐的,而且修改这个参数势必会影响RAC的正常工作方式导致LDM进程的繁忙度增加,而且可能影响RAC环境的稳定性和可用性。如果确实对于前台的死锁检查时间要求较高,建议在测试环境中详细测试后再部署到产品环境中。

设置全局死锁优先级

测试控制全局死锁的隐含参数_lm_dd_interval时,突然想到这个问题。Oracle的死锁判断是没有优先级的,也就是说,当两个或多个会话发生死锁的时候,无法指定牺牲哪个会话,而是由Oracle随机决定。

不过对于RAC环境而言,死锁的检查不在是内部的随机实现,Oracle通过隐含参数_lm_dd_interval来控制死锁的检测时间。更重要的是,对于RAC环境而言,Oracle允许不同实例设置不同的值。而不同实例的检测死锁间隔不同,就意味着优先级的出现。

如果实例1上设置该值为默认值60秒,而实例2设置为30秒,那么当发生死锁后,永远是实例2上先检测到死锁,也就是说,实例2上会话会被牺牲掉。这是两个实例上设置该参数相同的情况,两个会话分别连接到两个实例,产生死锁。

实例1上的会话1:

54035dc3f5343cd0a84c7f5f9edb8d98.png

在实例2上连接会话2:

a81812ff9295cdcf0f550b226ae65947.png

会话1上锁定记录2,产生死锁:I1S1> UPDATE t_deadlock SET name = 'b1' WHERE id = 2;

第一次是实例2上的会话2被牺牲报错:

65f367d0861a7274d2db56eddec73ccf.png

可以看到,会话2等待30秒后报错,此时会话2执行同样的语句再次引发死锁:

8d9822c81eb6d4378dd7c751dcb503f2.png

这次变成实例1上的会话1被牺牲报错,可以看到,会话1经历了两次死锁检测,因此执行时间为1分钟。会话1再次引入死锁:

3a85ca6bc1b69b565c14e628a34c8263.png

被牺牲的又变成了会话2。上面这个测试是在两个实例的_lm_dd_interval参数设置相同的情况下,下面修改实例2上的参数设置为5秒:

d2a249a8206f4a3484a83b638da47551.png

实例2参数生效后连接会话更新该表,实例1上的会话1取消之前的修改,重新进行更新:

be24a9c2b4427fb568016ff137ee77d5.png

下面在实例2上的会话2,引入死锁:

f1fc5e1cd15b23967919a8d788f3327a.png

显然由于不同实例的_lm_dd_interval参数的值设置不同,现在每次死锁都会在设置值更小的实例2上被检测,实例2上的会话每次都会被死锁牺牲掉。尝试设置不同的参数值在不同实例上设置死锁检测优先级获得成功。

----the end如何加入"云和恩墨大讲堂"微信群

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值