Prometheus 运维中实际的故障案例以及解决办法
如果有多个实例,比如 Prometheus-k8s-0 和 Prometheus-k8s-1,若 Prometheus-k8s-0 一直重启,则不光需要操作 Prometheus-k8s-0,也需要对 Prometheus-k8s-1 进行处理。由 15 秒调整为 1 分钟(即 1m),降低了数据采集频率,情况好转,目前内存一直稳定在 65-80%,落盘时内存会增大到最高点,数据回写完成后,降到最低点。配置由运维平台动态生成,当天出现了 bug,每台机器都出现了重复的监控节点,导致数据异常。
原创
2024-07-19 17:28:44 ·
1056 阅读 ·
0 评论