运维的终极目标是什么?7*24小时高效稳定运行!
都说真诚才是必杀技,落到运维场景中就是事前预警、事中解决、事后闭环。问题可以出现,但不要影响系统运行。运维工程师通过告警信息深度了解系统健康状况,因此告警管理全方位的展示运维的效率!
但是遇到告警风暴这种场面,试问哪个运维工程师灵魂深处不想就此摆烂?但是我们依然欣赏和鼓励有实力的选手,捧着罗曼罗兰看透生活的本质还依然热爱它的衣钵继续憧憬着美好,这是一种升华,是一种超脱,渡人精神不能少,既然躺不平摆不烂,咱就接干,故障定位及修复,如何利用智能化算法解决这些问题?
我们通过从数据的角度分析告警的基本特性,从相似性、相关性、因果性入手。
1.相似性,就是特定时间、程序、机器集中告警的情况,可以归类。
2.相关性,则是多个应用程序均使用同一个数据库的数据发起告警,具备一定的相关性。
3.因果性,就是一个告警会引起另一个告警。
根据告警信息的相似性和相关性生成告警事件,为运维人员提供更简洁的告警信息视图,更准确、快速地识别故障源,精准定位快速解决。
1、告警合并收敛:合并一定时间范围内的告警信息为多个具有高度相似性的告警集合,再将告警集合关联为多个单一概念的事件。将有代表性的告警事件化,使运维人员能够快速获得告警事件的相关信息。
2、告警关联:告警关联是由警报生成事件的过程,事件中所有警报都包含同一个问题的相关信息,事件内警报之间的相关关系应当能够被事件阅览者快速发现,简单易懂。