[编者按]本文作者为陈伯龙,云告警平台OneAlert创始人,著《云计算与OpenStack》,在IT运营管理、云计算方面从业10多年。
正文
互联网技术的发展,离不开运维支撑工作,没有零bug的程序,没有不出问题的系统,问题故障不可怕,可怕的是没能有序的处理:
突发紧急事件太多,疲于应付,团队士气低下,效率不高。
重要事情淹没在大量事件中,没有有序跟进处理,会引发严重业务影响。
如何有效处理紧急事件驱动的工作,成为(特别是运维主管)运维工作的关键。我接触了大量的各类型公司运维,从初创、中小、大型公司,总结和分享一些大多公司通用的on-call机制,帮助有序的处理紧急事件:
监控告警事件集中化。
建立多层次和职责划分的支撑团队。
通知到位和及时响应。
告警风暴关联合并。
事件单记录和团队协作。
基本上都是围绕人、流程、工具三方面进行,参考了ITIL的管理思路,大家感兴趣也可以参考下,特别是其中的ITIL V3的运营管理。
监控告警集中化
大多公司都用了zabbix和nagios、open-falcon等监控工具,对硬件、网络、应用进行监控。可能会存在监控分散问题:
环境比较复杂的时候,可能会用多个工具,如cacti监控网络,zabbix监控应用和服务器。
如果有多个异地数据中心时,可能需要部署多个zabbix和工具。
部分关键业务,需要单独的开发监控脚本/工具进行独立监测。
如果没有集中告警机制,容易出现邮件满天飞的现象,也很难跟进和处理,邮件也容易遗漏。
告警集中化,就是所有的生产监控发现的告警事件集中到一起,这样我们盯着一个平台就够了,同样也容易分析问题,是不是相同和类似原因。
能够直观掌握现有环境的状况。
发现事件相关性的,有些问题有较强关联性的,如网络稳定性影响主机,数据库性能影响业务等。