监控的艺术
背景
每个企业都意识到监控工作的重要性,但80%企业的监控工作仍然处在监控的初级阶段。
什么是初级阶段呢?
- 被动监控,故障发生运维人员永远不是第一个发现故障的人
- 监控IP地址与TCP端口,很多时候HTTP 80端口正常接受请求,但WEB服务器不能正常工作。
- 人肉监控(人肉运维),采用人海战术,桌面摆放很多显示器,甚至投影仪,要求监控者盯着各种仪表板界面,制定各种工作流程以及KPI考核监控人员。
- 人肉测试,要求监控人员每间隔几分钟人工操作一次,以确认系统正常工作,例如(没15分钟登陆一次,下一笔顶单,做一次支付等等)。
- 万能的重启,定其重启所有的服务器。
什么是中级阶段呢?
- 报警:手机短信更靠谱,因为手机随身携带(邮件不算,邮件到达速度慢,各种因素不稳定)
- 监控服务:探测服务的可用性,而不是仅仅监控端口,注意我是指私有协议的监控(HTTP,SMTP,FTP,MySQL 不算在内