1、监控原则
- 监控是基础设施,目的是为了解决问题,不要只朝着大而全去做,尤其是不必要的指标采集,浪费人力和存储资源(To B商业产品例外)。
- 需要处理的告警才发出来,发出来的告警必须得到处理。
- 简单的架构就是最好的架构,业务系统都挂了,监控也不能挂。Google Sre 里面也说避免使用Magic 系统,例如机器学习报警阈值、自动修复之类。这一点见仁见智吧,感觉很多公司都在搞智能 AI 运维。
2、Zabbix有哪些组件
- Zabbix Server:负责接收agent发送的报告信息的核心组件,所有配置、统计数据及操作数据均由其组织进行
- Database Storage:专用于存储所有配置信息,以及有zabbix收集的数据
- Web interface(frontend):zabbix的GUI接口,通常与server运行在同一台机器上
- Proxy:可选组件,常用于分布式监控环境中,代理Server收集部分被监控数据并统一发往Server端
- Agent:部署在被监控主机上,负责收集本地数据并发往Server端或者Proxy端
3、Zabbix的两种监控模式
Zabbix agent检测分为两种模式:主动
本文介绍了大厂面试中常见的运维监控知识点,涵盖Zabbix和Prometheus的工作原理、组件、监控模式、报警策略以及实际应用场景。强调监控原则,如避免不必要的指标采集,合理的告警策略,以及监控系统的简洁性。同时,讲解了Zabbix的组件、自定义发现、微信报警、客户端批量安装和分布式监控。对于Prometheus,探讨了其工作原理、组件、版本选择、局限性以及在K8S集群中的监控实践。此外,还涉及了监控系统的高可用方案、数据一致性挑战以及Prometheus的高可用扩展。
订阅专栏 解锁全文
388

被折叠的 条评论
为什么被折叠?



