淘宝客户端诊断体系升级实战

最新推荐文章于 2024-09-13 10:00:10 发布

阿里巴巴终端技术

最新推荐文章于 2024-09-13 10:00:10 发布

阅读量159

点赞数

文章标签：移动开发安全系统架构

本文链接：https://blog.csdn.net/qq_32198115/article/details/120223181

版权

淘宝客户端为提升稳定性，实施了诊断体系升级，引入场景概念以精细化异常处理和数据收集。升级包括日志体系标准化，端侧异常数据整合，高可用体系数据整合，以及场景化监控运维。通过诊断SDK和染色SDK，实现异常快照和变更监控，旨在5分钟响应，15分钟定位，60分钟恢复问题。未来将继续优化端侧诊断能力和平台的数据利用能力。

摘要由CSDN通过智能技术生成

作者：伝逸

淘宝作为一个航母级的应用，每天都有数亿的用户在使用。保证客户端的稳定性是我们的首要目标。为此，我们也提出了5-15-60的目标。即问题告警时，5分钟响应，15分钟定位，60分钟恢复。但是现有的排查体系并不能很好的达到这个目标，分析下来主要原因是：

监控阶段

通过Crash堆栈、异常信息进行聚合统计，不够精细准确，不够灵敏；
监控到异常后，端侧行为比较单一，只上报异常信息，无法提供更多有用数据；
手淘大部分问题都和线上变更有关，但是缺少对变更质量的监控。

排查阶段

监控上报的异常信息不足，依赖日志进行问题排查；
Crash或异常时不会主动上传日志，需要手动捞取，用户不在线获取不到日志；
获取日志之后：

缺少分类，缺乏标准，日志杂乱，看不懂其他模块的日志；
缺少场景信息，无法完整的重现异常时用户的操作场景；
缺少整个生命周期相关的事件信息，无法掌握app的运行情况；
各个模块上下游的日志信息无法有效关联形成完整链路；
现有日志可视化工具功能较弱，无法提高排查效率；

问题排查靠人工分析，效率低下，相同问题缺少沉淀；
各个系统间的数据缺少关联，需要到多个平台获取数据。

诊断体系升级思路

针对以上现有问题，我们重新设计了整个无线运维排查诊断体系的架构。在新的架构中，我们引入了场景的概念。以往端上发生的异常都是一个个独立的事件，没有办法针对不同的异常做更精细的处理和数据收集。而引入场景概念后，一个场景可能是一个异常和多种条件的组合，针对不同的场景可以做配置，使得异常信息的收集更加丰富，更加精准。

同时我们重新定义了端侧异常数据，主要包括标准的Log日志数据、记录调用链路的Trace全链路数据、运行时相关的Metric指标数据以及发生异常时的现场快照数据。平台侧可以利用异常数据进行监控和告警。也可以对这些数据进行可视化的解析，针对业务的差异，平台提供了插件化的能力来解析数据。利用这些语义化后的信息，平台可以进行初步的问题诊断。

所以接下来要实现的目标是：