系统崩溃现场：用Prometheus+Grafana诊断CPU100%的生产灾难-CSDN博客

本文链接：https://blog.csdn.net/itAred/article/details/147321243

场景设定

在某大型互联网公司的运维团队面试室，面试官要求候选人模拟一个真实的生产环境故障处理场景。候选人需要通过Prometheus和Grafana快速诊断系统CPU使用率飙升至100%的问题，并提出解决方案。

面试过程

第一轮：问题描述

面试官：假设你接到一个紧急任务，生产环境的某台服务器CPU使用率突然飙升至100%，导致服务响应时间急剧增加，已经影响到业务正常运行。你有15分钟的时间，利用Prometheus和Grafana进行诊断，找出问题并提出解决方案。你会怎么操作？

候选人：好的，让我捋一下思路。首先，我需要登录Grafana，看看Prometheus采集到的监控数据。我大概知道Prometheus会采集诸如CPU使用率、内存使用率、进程信息等指标，Grafana可以直观地展示这些数据。

第二轮：初步排查

候选人：我先在Grafana中创建一个仪表盘，添加几个关键的监控面板：

CPU使用率：直接看node_cpu指标，看看负载分布情况。
进程使用情况：查看node_procstat，看看哪些进程占用CPU最多。
内存使用率：虽然题目没提到内存，但我也想确认一下是否有内存泄漏导致CPU飙升。
磁盘I/O：检查node_disk_io_time，看看是否有磁盘读写异常。

接下来，我打开Prometheus的查询界面，直接写几个PromQL查询：

sum(rate(node_cpu{mode="system"}[5m]))：系统级CPU使用率。
sum(rate(node_cpu{mode="user"}[5m]))：用户级CPU使用率。
topk(5, sum(rate(node_cpu{mode="user"}[5m])) by (instance))：找出占用CPU最多的实例。

第三轮：定位问题

候选人：根据Prometheus和Grafana的数据，我发现以下几个异常：

CPU使用率飙升至100%：node_cpu{mode="user"}的值一直在1.0（即100%）。
进程占用：通过node_procstat发现一个名为python的进程（PID为12345）占用CPU高达95%，怀疑是某个Python服务异常。
内存使用：node_memory指标显示内存使用率为80%，但没有明显泄漏迹象。
磁盘I/O：node_disk_io_time正常，排除磁盘读写问题。

下一步，我想通过Prometheus的node_procs_stat指标，进一步检查这个Python进程的cpu_usage和mem_usage，确认它是否在进行大量计算或死循环。

第四轮：提出解决方案

候选人：基于以上排查，我怀疑是某个Python服务的某个任务进入了死循环，导致CPU占用过高。我建议以下解决方案：

紧急降级：立即停止异常的Python服务，使用备用服务接管流量，避免生产环境进一步恶化。
日志分析：查看Python服务的日志，确认是否有异常任务或死循环的迹象。
代码审查：针对可疑的任务，审查相关代码，特别是多线程或多进程部分，检查是否有资源竞争或死锁问题。
性能优化：如果任务确实是计算密集型，考虑优化算法或使用异步处理（如asyncio或multiprocessing）。
监控告警：在Prometheus中新增告警规则，当某个进程的CPU使用率超过80%时触发告警，提前发现问题。

结束面试

面试官：你的思路很清晰，但在实际操作中，你提到的日志分析和代码审查部分需要更具体。比如，如何快速定位Python服务中的死循环或性能瓶颈？另外，Prometheus的告警规则设置是否考虑过误报问题？

候选人：感谢指正！日志分析时，我会重点关注错误日志和INFO级别的任务日志，特别是与CPU占用相关的任务。至于代码审查，我会优先检查for循环、while循环和递归函数，确保没有无限制的迭代。至于Prometheus告警规则，我会设置合理的阈值（如80%持续5分钟），并结合process_start_time_seconds排除新启动的进程。

面试官：好的，你的回答整体不错，但还需要更多实践经验来完善。今天的面试就到这里，谢谢！

候选人：谢谢您的指导！我会继续学习Prometheus和Grafana的高级用法，争取下次表现更好！

（面试官点头，结束面试）