死锁是指两个或两个以上的进程在执行过程中,由于竞争资源或者由于彼此通信而造成的一种阻塞的现象,若无外力作用,他们都将无法推进下去
发生死锁通常要满足以下四个条件:
- 互斥条件:一个资源只能同时被一条线程占用。
- 请求和保持条件:当一个线程因获取不到其他资源而阻塞时,对自己所持有的资源保持不放。
- 不剥夺条件:除非线程自己释放资源,否则其占有的资源不可以被剥夺。
- 条件:处于死锁等待中的线程一定会形成一条环路。
发生死锁的情况:
- 同一线程递归
同一个线程中,试图对同一个互斥量连续加锁两次,那么它自身就会陷入死锁状态。 - 不同线程交叉
程序中使用多个互斥量时,如果允许一个线程一直占有第一个互斥量,并且在试图锁住第二个互斥量时处于阻塞状态,但是拥有第二个互斥量的线程也在试图锁住第一个互斥量,这时就会发生死锁。因为两个线程都在互相请求另一个线程拥有的资源,所以这两个线程都无法向前运行,于是产生死锁 - 阻塞
现象是死锁,其实是阻塞。互斥量锁定的范围里包含了网络、硬盘、等有可能阻塞的操作,导致互斥量无法走到解锁的地方。 - 内存越界
现象是死锁,其实是内存越界。互斥量是定义在内存中的变量,就有可能被其他变量操作后越界污染,导致互斥量异常。此时再进行加锁,会被任务已处于加锁状态,导致无法正常加锁。
死锁排查方法
strace是一个可用于诊断、调试和教学的Linux用户空间跟踪器。我们用它来监控用户空间进程和内核的交互,比如系统调用、信号传递、进程状态变更等。
1.查看进程ID
通过ps -T命令查看所有进程信息
[root@cp ] # ps -T
PID USER TIME COMMAND
2192 root 0:00 {master_accept_s} /home/app
2195 root 0:00 {taskCmd_server} /home/app
2206 root 0:00 {ipcm_alarm_serv} /home/app
2447 root 0:11 {Desktop} /home/app
2.strace定位进程死锁
通过死锁现象定位可能发生死锁的线程,或者从主线程开始定位。
[root@cp ] # strace -tt -T -p 2447
futex(0x804a02c, FUTEX_WAIT_PRIVATE, 2, NULL
3.通过GDB定位锁被哪个进程占用
通过strace定位得知Desktop线程在等待锁,锁的地址为0x804a02c,通过锁的地址可得知锁的名字。然后通过GDB确认占用锁的线程,_owner为占用锁的线程ID,再对比ps得到的进程信息确定占用进程名称
(gdb) p *(pthread_mutex_t*)0x804a02c
$1 = {__data = {__lock = 2, __count = 0, __owner = 7198, __kind = 0,
__nusers = 1, {__spins = 0, __list = {__next = 0x0}}},
__size = "\002\000\000\000\000\000\000\000\036\034\000\000\000\000\000\000\001\000\000\000\000\000\000", __align = 2}
最终通过锁的名称和进程定位发生死锁的位置