有效运维的 on-call 机制

OneAPM官方技术

于 2016-06-20 15:30:48 发布

阅读量4.3k

点赞数

分类专栏：云告警文章标签：云计算运维互联网

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangpeng198688/article/details/51721077

版权

[编者按]本文作者为陈伯龙，云告警平台OneAlert创始人，著《云计算与OpenStack》，在IT运营管理、云计算方面从业10多年。

正文

互联网技术的发展，离不开运维支撑工作，没有零bug的程序，没有不出问题的系统，问题故障不可怕，可怕的是没能有序的处理：

突发紧急事件太多，疲于应付，团队士气低下，效率不高。
重要事情淹没在大量事件中，没有有序跟进处理，会引发严重业务影响。

如何有效处理紧急事件驱动的工作，成为（特别是运维主管）运维工作的关键。我接触了大量的各类型公司运维，从初创、中小、大型公司，总结和分享一些大多公司通用的on-call机制，帮助有序的处理紧急事件：

监控告警事件集中化。
建立多层次和职责划分的支撑团队。
通知到位和及时响应。
告警风暴关联合并。
事件单记录和团队协作。

基本上都是围绕人、流程、工具三方面进行，参考了ITIL的管理思路，大家感兴趣也可以参考下，特别是其中的ITIL V3的运营管理。

监控告警集中化

大多公司都用了zabbix和nagios、open-falcon等监控工具，对硬件、网络、应用进行监控。可能会存在监控分散问题：

环境比较复杂的时候，可能会用多个工具，如cacti监控网络，zabbix监控应用和服务器。
如果有多个异地数据中心时，可能需要部署多个zabbix和工具。
部分关键业务，需要单独的开发监控脚本／工具进行独立监测。
如果没有集中告警机制，容易出现邮件满天飞的现象，也很难跟进和处理，邮件也容易遗漏。

告警集中化，就是所有的生产监控发现的告警事件集中到一起，这样我们盯着一个平台就够了，同样也容易分析问题，是不是相同和类似原因。

能够直观掌握现有环境的状况。
发现事件相关性的，有些问题有较强关联性的，如网络稳定性影响主机，数据库性能影响业务等。

最低0.47元/天解锁文章

OneAPM官方技术

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
有效运维的 on-call 机制

[编者按]本文作者为陈伯龙，云告警平台OneAlert创始人，著《云计算与OpenStack》，在IT运营管理、云计算方面从业10多年。
复制链接

扫一扫

专栏目录

OneAPM官方技术 CSDN认证博客专家

CSDN认证企业博客

527: 原创

6万+: 周排名

189万+: 总排名

100万+: 访问

: 等级

1万+: 积分

238: 粉丝

378: 获赞

74: 评论

204: 收藏

私信

关注

热门文章

分类专栏

最新评论

什么是实时应用程序自我保护（RASP）？
WestWindSmile: 与防火墙等防护方案不同，RASP是一种让应用具有自我保护能力的防护软件，会注入到应用程序当中充当一层防护外壳，与应用成为一体。而防火墙只是在应用外层充当保镖，一旦保镖挂掉，应用就失去了保护。 RASP可以对威胁进行检测并实施对应的防护行为。典型保护手段包括拦截访问请求、停止应用（针对DDos攻击）、发送告警给安全专员等。 RASP对应用性能有一定影响，大概有5%的性能损失。
提高Python运行效率的六个窍门
zhuangkuoqi: lowerlist = ['this', 'is', 'lowercase'] upper = str.upper upperlist = [] append = upperlist.append for word in lowerlist: append(upper(word)) print(upperlist) #Output = ['THIS', 'IS', 'LOWERCASE'] 你举得这个列子，我看了好几遍，没问题啊，这么写，至少这个程序没问题的
为什么很多公司都自主开发监控系统？
qq_34169076: 推荐这个，个人国产化zabbix，java开发，分享源码，个人分享https://blog.csdn.net/qq_34169076/article/details/117749661
微服务扩展新途径：Messaging
Tisfy: 楼主的帖子实在是写得太好了。
对抗告警疲劳的8种方法
Tisfy: Nice!

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。