死锁及原因

死锁通常指两个task因为竞争资源而导致的彼此阻塞,无法继续运行的现象。

一旦出现,就会严重影响程序运行,相关task(进程也好,线程也罢)全都相当于死掉了,比死掉了更恶心的在某些情况下还占用大量的资源无法释放。

死锁出现的可能原因有如下几种:

1,有多个资源共享,但是访问这个多个资源的task并未按一致的顺序获取,有可能导致A得到的mutex_a,然后想去获取mutex_b,而B占有mutex_b想去获取mutex_a,结果导致两个task都获取不到想要的资源,一直挂起。

2,时序问题:说是死锁,并不一定是因为锁的问题导致程序无法继续运行,假设一个taska在A点需要taskb在B的某个状态才能继续运行,而taskb又需要taska在B点的的某个状态才能继续运行,这样两个task都无法拿到自己继续运行的条件,都无法运行。

3,某个被阻塞的taskF被阻塞它的taskC所需要,比如:我们都知道vfork函数保证子进程先运行,在它调用exec或者exit之前其父亲是无法运行的,假如子进程需要父进程的进一步动作才能继续,就导致父子都无法运行。

4,一个task对某个对于某个资源重复加锁,因为第一次的锁未释放,导致第二次无法获取而卡住。

5,其他因为系统资源分配等原因,导致一个task获取不到某个资源,而又无法释放已经获取的其他资源,导致死锁。


死锁一旦发生,除了杀掉其中的互斥一方外,基本没有其他更好的办法,死锁的避免主要是靠良好的设计保证。

1,对于多个task获取多个资源的情况下,一定要规定好一个统一的资源获取顺序,即使有时候这样会有一些效率的浪费。

2,尽量避免两个或多个task彼此需要同步的情况,从某种情况下,如果没有主从关系,需要彼此同步,这本身就是糟糕的设计。

3,良好的资源配给方式,良好的异常检查机制(如:必要时可以采取超时释放机制,将互斥锁改为半自旋的机制,如使用pthread_try_lock)。


死锁的debug

看网上说,对于数据库,内部一般有锁监视器执行死锁检查,一旦发现死锁,数据库引擎将选择回滚开销最小的事物,将其占有的资源释放一遍其他事物能继续执行,这是一个很好参考机制,如果task之间死锁,可以通过释放掉优先级和重要性较低的task以维持系统的继续运行,当然,这需要设计一个健壮的恢复机制,与其花时间在这里,倒不如多从设计上考虑,从根源上规避。

如果出现死锁,可以通过查看进程状态,如果task长时间睡眠,可以考虑死锁的可能性,如果可以,可以通过人为向task发送11或者6号信号,使task崩掉,以便通过栈信息确认问题,相关办法请参考这里



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值