扎心的运维告警

  随着企业数字化转型的深化,许多行业都卷入了数据爆炸的洪流之中,健康大数据、金融大数据、政务大数据…而运维从业者这一群体,与数据的关联更加紧密。随着APM产品的普及,运维伙伴可以轻易将所需关注的数据进行可视化的展现,对业务的变化可以做到一目了然,但同时,也给自己套上了“紧箍咒”,监控平台的“红色标识”,邮箱、短信收到的告警提示,紧牵着运维伙伴的神经。问题也随之而来,如何最佳的配置“告警”,是每一个运维伙伴工作中面临的棘手问题。

  **业务越来越复杂,越早的发现局部小问题,才能更好的保障业务的运行。如何实现精细化的告警?**
  “可用性”是判断应用健康状况的一项重要指标,但这一项指标告警可能存在一些遗漏及误报,比如在金融行业常见的前置应用到核心应用这一架构中,当核心应用的“成功率”、“响应率”等指标正常时,是否即可判定应用正常?实际情况中,核心应用通常承载许多程序模块,当其中某一程序模块出现问题时,而整体的指标在正常的范围时,“可用性”告警可能就失效了。这一场景下,“过滤器”即可发挥出价值。
  “过滤器”可通过一组搜索条件,在已归类好的交易里将我们关注的某种特征的交易筛选出来,例如IP端口、不同交易渠道、不同交易类型等维度,再结合运算,做单独的分析,即可实现更加精准的告警配置。
  举例来说,在配置高危事件告警时,可通过重点监控关键交易及关键节点的性能指标,对交易中出现的关键错误码的重点识别来实现对高危事件的告警。当然,这仅是“过滤器”应用的冰山一隅,在面对更加复杂的场景时,“过滤器”有更大的发挥空间。

随着业务的增长、告警的精细化要求,监控的需求越来越大,传统的配置方法显然无法满足,如何应对?
当需要对数据按照维度进行过滤时,当一个维度下的值成千上万时,当一些值只在离散的时间段内出现,动态增减,人工难以及时响应调整时,想实现对其全面的监控便会十分的困难。潜在的巨大工作量更是难以承受。此时,“聚合维度告警“挺身而出。通过聚合维度告警,在设置告警对象时,不必再人工对要监控的所有值逐个的指定,只需告诉监控系统所关注的维度,该维度下所有值均会按照告警条件进行监控,并且可以通过例外值的独立设置,确保监控的精准与可靠。

业务在变,监控需求也在变,告警能不能更加智能?
绝大多数的监控系统都是通过阈值来实现告警的,阈值是固定的,而业务却是不断变化的,随之而来的问题便是告警的泛滥,隐患不言而喻。近年,很多企业也开始尝试“去阈值”,动态基线的科学性自然成为了举足轻重的大事。在即将发布的EZSonar4.1版本中,华青融天优化了原有的“动态基线告警”算法。优化后的AI算法基于模型多周期因素综合考虑,管理员不需要再额外配置其他参数,在指定需要监控的指标后,便可以自动的实现学习和监控。

运维之路,艰苦漫长,告警的持续改进也不能一蹴而就,运维伙伴需要不断的优化、不断的总结。华青融天亦身先士卒,通过不断的更新、迭代产品,助力运维伙伴。

转载于:https://blog.51cto.com/13447069/2370728

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值