1.问题描述
程序有多个线程,主线程启动一个线程拉取远端的视频流,在拉取视频流的回调函数里对获取的数据进行处理。主线程启动拉流线程之后就在 while(1) 中进入睡眠状态,剩下拉流线程拉取数据并进行处理。
目前遇到的问题是:程序运行一段时间没有任何提示就退出了,按照预期,没有人为干预结束这个程序,应该一直运行下去。这个问题是必现的,只是有时候程序可以运行一天有时候半个小时,之后就会出现这个现象。
从应用程序的日志看不出任何异常,日志就是戛然而止。
2.猜想与验证
比较明显的事实是,程序被系统停止了,但是为什么会被停止,需要去寻找可能的原因。
(1) 根据 top 命令观察程序运行时的资源占用情况
从 top 命令看到程序的资源占用情况非常稳定,运行几个小时内存和 CPU 占用几乎不变,在一个很小的区间内窄幅波动。
通过这种方式看不出任何异常。
(2) 查看系统日志
在某些情况下,程序被系统 kill 后,在系统日志中会记录一些信息,所以可以试着通过系统日志寻找异常。下面的代码摘抄自:Linux下应用进程消失原因分析
dmesg | egrep -i -B100 'killed process'
## 或:
egrep -i 'killed process' /var/log/messages
egrep -i -r 'killed process' /var/log
## 或:
journalctl -xb | egrep -i 'killed process'
查看系统