目录
在日常工作中,我们经常会遇到线上问题,而在面试中也可能被问到相关问题。很多同学在工作中遇到具体问题可能有解决思路,但面对抽象问题时可能会大脑一片空白。本文将总结一套系统化的线上问题排查思路,希望能帮助大家在工作和面试中更好地应对此类问题。
一、问题确认与信息收集
当线上出现问题时,首先要确认问题并收集相关信息。包括问题的具体表现,如系统响应慢、服务不可用、数据异常等;问题的描述、影响范围,是对前端用户还是后端人员有影响;问题发生的时间点,是持续性还是间歇性;以及当下的环境信息,如配置、JK 版本、应用版本等,保护好现场以便后续分析。
二、快速响应
根据问题的严重程度决定采取何种措施。如果问题严重,可能需要调集架构团队甚至最厉害的架构师来处理;如果问题不那么紧急,可以先观察或者等有时间再处理。确定解决问题的人员后,要考虑采取相应的措施,如服务降级、流量限制、回滚版本等。
三、日志分析
工作中遇到线上问题,很多同学会第一时间查看日志。包括应用系统日志、操作系统日志、中间件日志等。运维人员还会对日志系统做监控,方便大家查看。同时,对系统运行过程中的各种数据进行监控分析,如 CPU、内存、磁盘 IO、网络资源利用率、Java 虚拟机的 GC 日志、内存使用线程状态、应用性能的监控(响应时间、吞吐量、错误率)等,这些指标能帮助我们快速定位问题。
四、网络分析
如果线上系统访问非常慢,要先检查是否是网络原因导致的,如网络延迟、丢包率等。如果系统接口没问题,很可能是网络不稳定,需要优先检查网络问题。
五、数据库分析
分析数据库层面的问题,如是否有慢查询日志、数据库的状态、连接数、锁等待情况等,对日志中的关键 SQL 语句做执行计划分析,检查索引是否合适。但调索引要根据线上情况,避免在数据量大时线上调索引导致锁表。
六、代码级别分析
分析线程 dump 文件、堆内存 dump 文件,从中可以定位到代码级别的问题,如死锁、内存溢出等。同时进行代码回顾,检查最近是否有新的代码变更导致线上系统出现 bug。还可以使用系统性能分析和监控工具,如 Arthas、Profile、Prometheus、Grafana、SkyWalking 等。
七、问题复现
分析问题的过程中,尝试复现问题。如果能在测试环境复现,就能更好地定位问题并解决。可以根据前面分析的原因,在测试环境中重现问题发生的步骤,一旦能重现,就确定问题原因,集中火力解决。
八、出解决方案
根据问题的根因出解决方案,可以是快速解决或者长期优化,具体情况要根据不同的根因、业务场景来决定。
九、测试与验证
解决方案实施后,要在测试环境进行大量验证,生产环境也要进行监控。
十、复盘与总结
这一步非常重要,在一些好的互联网公司或大厂,每次出现线上事故后都会花很长时间写事故报告,总结经验教训。对于经验不足的同学,多看公司的线上事故报告能积累处理问题的经验。
案例分析
以一个 Java 应用响应变慢的问题为例。确认问题时,发现系统原来接口用户操作可能两三百毫秒返回,现在要一两秒钟。分析日志发现有大量 GC 告警,通过监控 Java 虚拟机日志和工具可以分析是否频繁 GC。查看线程栈,检查是否有线程相互等待、死锁或等待数据库等微停状态的线程。对数据库进行分析,看连接是否耗尽、是否有大量慢查询。经过代码审查,定位到问题是引入了无效的数据库连接释放代码,导致连接未正确释放,占用大量内存,最终导致内存积压和频繁 GC。解决方案是修复这个 bug,同时检查相关的 SQL 语句和连接池大小是否合理。修复后检查响应时间是否正常、GC 频率是否恢复。
总之,每个同学在工作中都应该有自己的一套线上问题解决流程思路,并最好以文字形式记录下来,以便在面试时能够系统地回答相关问题。
在日志分析中如何发现隐藏的问题?
分享一些具体的线上问题排查案例
排查线上问题时,如何判断问题是否得到解决?