前言
以前在C语言程序崩溃打印出异常堆栈的时间,总是有这种疑问:它是准确的么?
近期正好有个机会,针对这个疑问进行了下深入的挖掘,在借助一个“青蛙”程序(包括除零、内存访问越界异常和backtrace异常堆栈打印),以及搜索一些理论进行学习,就我的所知范围,堆栈指向应该是非常准确的!
理论
我们知道用户程序被操作系统中断执行,通常是因为一些外部事件,具体可以分为:
- 硬件中断
一般来自外设,可拥有不同的优先级
- CPU线程执行上下文异常(除零、内存越界、缺页、调试陷阱、调度切换等)
与线程紧密相关
- 进程级信号
任意进程内的线程发现后,都可以执行信号处理
- 线程级信号
只能特定的线程进行信号处理,其他线程不能代劳
信号处理的时机
无论是进程级信号,还是线程级信号,信号的处理时机,在某些E文介绍中,描述它在系统调用的前后,或在线程执行状态切换的时候,这些时机都可以看作是线程即将脱离内核态的时间。
但这样的信号处理,通常实时性就比较弱;对于时序要求比较强的信号,我推测操作系统还会结合CPU执行上下文的异常和线程内核数据结构标识存在未处理信号,实现较为实时的处理 …
- 线程在阻塞、睡眠状态,内核可以直接进行处理
- 线程在运行状态,内核可以通过发出线程当前执行CPU的执行上下文的异常和标记线程的
signal pingding
,进行较为及时的处理
异常堆栈准确性的判断依据
由于空指针、内存访问越界、除零等CPU上下文异常为CPU级别的可见信息,CPU在执行下一条指令前,就可以被中断住,所以,通过backtrace
等接口获取的线程堆栈数据通常是非常准确。
它坚实的依据,也就在此!
参考
进一步怀疑
以前总怀疑程序崩溃的异常堆栈,可能不太准确,是否存在程序还会“跑飞”一段时间,因而存在相关性较远的崩溃可能?
我猜测,如果程序运行时内存被破坏不是很厉害的情况,根据前面所述,异常堆栈所指向的位置,将是非常准确的,是可以信赖的!
但是,如果崩溃是因为前面、历史运行期间的内存破坏行为,造成后续程序运行产生次生崩溃,而且崩溃位置为非常可靠的代码(例如,glibc代码、系统代码),则不能直接认为就是当前位置代码造成的问题,需要更深入的代码的走查、内存检查和分析!
Linux 中valgrind
内存运行期检查工具可以用用 😃