linux 查看进程阻塞,Linux下socket编程 多线程 进程超时阻塞、卡死问题定位

问题背景:工作中遇到一个多线程进程有部分线程(包含主线程)像卡死一样不再处理其他事件,就像无限期休眠了一样

知识点:进程、线程、线程锁、条件变量、socket

定位工具:strace、htop、gdb

问题分析:

由于进程还在,用htop查看进程的线程也都在,首先就是想看看每个线程当前处于什么状态

用gdb工具查看主线程当前堆栈信息如下

c73fecc8f1d5384009c35d31aed0422f.png

可以看到主线程在调用了pthread_join 等待一个线程结束后就阻塞了,具体在等待什么,结合log上下文可以判断出是在等待那个线程(这里根据不同的代码不一样,具体问题具体分析)

接着用gdb工具查看主线程等待要结束的线程的堆栈信息如下

f9ab65b83549e70fc5951f774551c952.png

从改线程堆栈信息看该线程停留在pthread_cond_timewait这里,貌似在等待事件或者超时,但一直没有事件,查看超时时间为500ms,可是为什么一直没超时呢?不知道为什么一直没超时

用strace工具跟踪该进程的系统调用和信号传递

4720bfa43c6c89c10b1929f6a4ec2e2e.png

第17行 5621是主线程,可以看到他在等待对应线程id 509 退出,第1行 509就是等待要退出的线程,从信息可以看出是在等资源0xd32c2c 等待超时是按系统实时时钟,绝对时间来判断的,2147483611就是要等待的秒数,转换出来就是“2038-01-19 11:13:31”

这是要等到“2038-01-19 11:13:31”才会超时退出,太吓人了,为什么这个超时时间会这么大呢?暂时还不清楚

查看log出问题时的上下文,发现系统时间发生了变化

56095eaa5979842528dbc21b77e5520d.png

问题大致猜出来,是由于系统时间被修改为了 1901年,导致的超时时间是未来的 2038年(猜是系统库函数读取不了1970年以前的时间导致,有待研究验证)

解决方案:把线程条件变量的超时时间判断改为用启站的运行时间替换系统实时时钟

注:该问题定位和以上记录大部分都是参数网友已整理的资料,这里把部分重要的参考引用标注如下。另外,根据网友总结用运行时间会多触发系统调用,可能增加cpu使用时间

参考网址:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值