用户实例故事 | zabbix监控不到位,AIOps工具也能补

特别喜欢听项目上的工程师们讲故事。常常我们给产品设想好应该这么用应该那么用,到了客户正式环境都会有新变化,还真能给用出点原先没想到的功效来!

这个小实例来自于某证券交易所 (嘿嘿,好像国内也没几个大的交易所,就是其中的一个)
发生时间:2019年冬天


生产环境的状况是这样的:

  •  有很多太分散的指标。有npm、bpm平台的,有zabbix(每个中心一个zabbix)平台的,有opmanager平台的,有蓝鲸的,有LDDS平台的,有DCE平台的,等等等...
  •  当然告警也是分散的。想象一下好多系统都有自己的告警,有了风吹草动不管三七二十一先发了告警再说,没有针对告警的聚类收敛、也没有统一的收集展示。

这样就是现状了吗? no no no,还有更可怕的。告警多了烦人,不告警出了事更吓人

 

夏洛克告警辨析中心

 

后来这个用户部署了夏洛克AIOps的底层数据处理平台 (现在已经升级为“夏洛克数字运维中台”了)。

客户运营端A同志:半小时前,dce环境的一台生产机器,运行异常,down机了,为什么zabbix没有报出来?!下游用户已经在投诉了!!

客户IT运维工程师:  不知道啊,是不是zabbix没监控啊

客户运营端B同志: 但是我看到擎创的大屏上有报告警啊

客户运营端A同志问:夏洛克怎么监控的,你怎么知道这台机器down机了?

回答:我就是用的你们提供的数据啊,我给你们查一下,稍等……

10分钟后………

再次回复:机器运行状态这个指标,不是从zabbix平台取的,是通过一个定时ping测脚本拿到机器down机信息的。

客户:  你们平台赶紧上吧,加快进度……

要是发现得晚点,该引起全国皆知的故障了。

智能运维软件平时就是收集收集数据,关键时刻才发威

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值