【摘要】
近年来,随着应用系统规模的不断扩大,以及主机下移X86平台、小机下移X86平台的快速进行,使得X86平台的分区数急速上涨;不仅如此,随着应用系统复杂性的不断提高和新技术的不断演进,中间件的种类也在不断增长。根据一体化监控平台显示,团队每日需要处理的三级以上的告警条数高达约3000条,面对每日如此庞大的、种类繁多的告警,7*24运维人员如何在第一时间准确地处理告警对于提升应急运维能力有着重要的意义;同时,由于同类告警的文本内容存在着相似性,如何利用文本相似性提高运维效率也有着重要的意义。
针对大规模网络频繁告警造成的运维压力和核心报警延迟甚至遗漏的问题,改进了Apriori算法用于告警合并,以适应运维场景的实际情况,并且实现了时序关联关系数据挖掘装置。该装置通过历史告警数据抓取、模型训练和数据验证测试三个步骤完成对告警数据的合并。与传统 Apriori算法不同的是,针对时序告警序列规则一对一串行的特点,该优化算法省去了迭代过程并提出了一种新的置信度计算方式,解决了频繁告警项引起的置信度计算失真的问题,提高了关联规则的可信度。实验结果表明,该装置有效合并了告警信息,减轻了运维的压力,为海量告警信息故障的根因定位起到了积极的作用。