-
在
runloop
生命周期回调之间检测耗时,一旦检测到除休眠阶段之外的其他任意一个阶段耗时超过我们预先设定的卡顿阈值,则触发卡顿判定并且记录当时的调用栈。 -
在合适的时机上报到后端平台分析。
整体流程如下图所示:
如何判定一次卡顿为一次卡死
其实通过上面的一些总结我们不难发现,长时间的卡顿最终无论是触发了系统的卡死崩溃,还是用户忍受不了主动结束进程或者退后台,他们的共同特征就是发生了长期时间卡顿且最终没有恢复,阻断了用户的正常使用流程。
基于这个理论的指导,我们就可以通过下面这个流程来判定某次卡顿到底是不是卡死:
-
某次长时间的卡顿被检测到之后,记录当时所有线程的调用栈,存到数据库中作为卡死崩溃的怀疑对象。
-
假如在当前
runloop
的循环中进入到了下一个活跃状态,那么该卡顿不是一次卡死,就从数据库中删除该条日志。本次使用周期内,下次长时间的卡顿触发时再重新写入一条日志作为怀疑对象,依此类推。 -
在下次启动时检测上一次启动有没有卡死的日志(用户一次使用周期最多只会发生一次卡死),如果有,说明用户上一次使用期间最终遇到了一次长时间的卡顿,且最终 runloop 也没能进入下一个活跃状态,则标记为一次卡死崩溃上报。
通过这套流程分析下来,我们不仅可以检测到系统的卡死崩溃,也可以检测到用户忍受不了长时间卡顿最终杀掉应用或者退后台之后被系统杀死等行为,这些场景虽然并没有实际触发系统的卡死崩溃,但是严重程度其实是等同的。也就是说本文提到的卡死崩溃监控能力是系统卡死崩溃的超集。
卡死时间的阈值如何确定
系统的卡死崩溃日志格式截取部分如下:
Exception Type: EXC_CRASH (SIGKILL)
Exception Codes: 0x0000000000000000, 0x0000000000000000
Exception Note: EXC_CORPSE_NOTIFYTermination
Reason: Namespace ASSERTIOND, Code 0x8badf00d
Triggered by Thread: 0
Termination Description: SPRINGBOARD, scene-create watchdog transgression: application<com.ss.iphone.article.News>:2135 exhausted real (wall clock) time allowance of 19.83 seconds
可以看到 iOS 系统的保护机制只有在 App 卡死时间超过一个异常阈值之后才会触发,那么这个卡死时间的阈值就是一个非常关键的参数。
遗憾的是,目前没有官方的文档或者 api,可以直接拿到系统判定卡死崩溃的阈值。这里 exhausted real (wall clock) time allowance of 19.83 seconds
其中的 19.83 并不是一个固定的数字,在不同的使用阶段,不同系统版本的实现里都可能有差异,在一些系统的崩溃日志中也遇到过 10s 的 case。
基于以上信息,为了覆盖到大部分用户可以感知到的场景,屏蔽不同系统版本实现的差异,我们认为系统触发卡死崩溃的时间阈值为 10s,实际上有相当一部分用户在遇到 App 长时间卡顿的时候会习惯性的手动结束进程重启而不是一直等待,因此这个阈值不宜过长。为了给触发卡死判定之后的抓栈,日志写入等操作预留足够的时间,所以最终本方案的卡死时间阈值确定为 8s。发生 8s 卡死的概率比发生几百 ms 卡顿的概率要低的多,因此该卡死监控方案并没有太大的性能损耗,也就可以在生产环境中对全量用户开放。
如何检测到用户一次卡死的时间
在卡死发生之后,实际上我们也会关注一次卡死最终到底卡住了多久,卡死时间越长,对用户使用体验的伤害也就越大,更应该被高优解决。
在触发卡死阈值之后我们可以再以一个时间间隔比较短的定时器(目前策略默认 1s,线上可调整),每隔 1s 就检测当前 runloop
有没有进入到下一个活跃状态,如果没有,则当前的卡死时间就累加 1s,用这种方式即使最终发生了闪退也可以逼近实际的卡死时间&#