数人云:最近两天这个天呀,真是出门5分钟,流汗2小时,小数保持冷静,盘点5种DevOps事件管理工具,一起来消消暑吧:)
最少的BUG,最优质的代码是开发的终极目标。正如Arkenea的创始人Rahul Varshneya在其文章中描述NASA的开发和处理软件:“所有应用都有BUG。”尽管有成百上千的人在规划、研发、测试NASA的代码,但负责宇航员生活的应用仍然存在BUG。
DevOps的目标——确保在生产中能够检测到的每一个BUG,并根据其应用功能或者可用性的影响度来分级、及时处理。由DevOps处理的生产问题称为“事件”。
1998年,NASA发射火星气候探测器,作为火星极地登录计划的一部分。1999年9月23日,轨道飞行器失联,一队技术人员花费24个小时以上的时间,尝试深空网络天线用以恢复联系。若只知道其在几百万英里以外,但不知确切位置,该如何解决此问题?
NASA发布的Twitter:
尽管运维团队一直在遵循着ITIL原则,但以现在来说略显过时。随着应用发布时间缩短,标准的SLA用于宕机或缺陷辨识度为0,DevOps和事件管理过程必须做出相应调整。事件需分类和优先排序,最好有自动服务,与相关的程序员和测试进行合作分配处理,在一天内给出解决方案。
面向客户的DevOps人员应24小时跨时区覆盖,每个SLA漏洞都