多维度架构之监控
背景
每个企业都意识到监控工作的重要性,但80%企业的监控工作仍然处在监控的初级阶段。
什么是初级阶段呢?
- 被动监控,故障发生运维人员永远不是第一个发现故障的人
- 监控IP地址与TCP端口,很多时候HTTP 80端口正常接受请求,但WEB服务器不能正常工作。
- 人肉监控(人肉运维),采用人海战术,桌面摆放很多显示器,甚至投影仪,要求监控者盯着各种仪表板界面,制定各种工作流程以及KPI考核监控人员。
- 人肉测试,要求监控人员每间隔几分钟人工操作一次,以确认系统正常工作,例如(没15分钟登陆一次,下一笔顶单,做一次支付等等)。
- 万能的重启,定期重启所有的服务器,遇到解决不了的问题,先重启,再下载日志给开发人员。
什么是中级阶段呢?
- 报警:手机短信更靠谱,因为手机随身携带(邮件不算,邮件到达速度慢,各种因素不稳定)
- 监控服务:探测服务的可用性,而不是仅仅监控端口,注意我是指私有协议的监控(HTTP,SMTP,FTP,MySQL 不算在内)
- 故障分析:通过日志与调试工具分析软件BUG,指导开发人员改善软件质量,使其故障不会再次发生,达到不用restart重启方式解决故障
- 半自动化测试