基于可观察性的运维创新

基于可观察性的运维创新

可观察性是将监控进化为一种流程,它可以为数字业务应用提供新洞察,加快创新速度并增强客户体验。新运维领导者应利用可观察性来扩展当前的监控能力、流程和文化,以实现这些优势。
几十年来,IT运营团队一直在部署监控工具,以跟踪支持业务流程的基础设施、网络和应用程序的性能。随着IT环境的发展,监控工具在适应这些架构的波动性方面表现出局限性。静态仪表板与人为生成的阈值不能适应这些现代环境,在协助解决突发事件方面缺乏灵活性。使用这些工具,企业无法以比较高的可信度确定其应用程序真实的状态,也无法了解其服务如何影响业务KPI和客户的使用体验。为了提供保持竞争力所必需的用户体验,企业必须超越基础设施的局限,使其数字业务具备可观察性。

可观察性
可观察性是软件和系统的特性,它允许软件和系统被 “看到”,并允许回答有关其行为的问题。

利用和促进软件可观察性的工具允许观察者使用自动化及探索性技术收集和探索内、外部的状态数据,这些技术可以逐步降低错误行为的潜在成因。这些见解对于IT系统运维内部和外部的组织都很有用,例如 DevOps 和 SRE 团队,他们可能是这项技术的主要的使用者。

可观察性是既有监控系统的进化,强调通过获取应用程序的高维度数据输出来实现业务服务状态的可见性。这与传统的监控形式不同,传统的监控形式关注的是构成服务的各个组件。为了充分实现现代开发方法论的理念,应用程序必须以"可观察性驱动的开发"来构建。

通常的监控依赖于仪表盘和告警通知,以便在已知问题场景发生时将其逐级报告。然而,即使在相对简单的应用中,特别是在高负荷的时候,例如零售高峰期,以前未知的问题也会频繁发生。在这种情况下,监控仪表盘显示为绿色,而实际状态是红色的,而那可能是愤怒的客户通过社交媒体反映的。这种现象非常普遍,它甚至还有一个名字:“西瓜仪表盘”。

可观察性允许人们快速地对业务服务情况进行询问,以确定性能下降的根本原因,即使这种情况从未发生过。

可观察性一词起源于控制理论的数学,其中可观察性是衡量一个系统的内部状态在多大程度上可以从其外部输出的知识中推断出来。

认为一个工具赋予应用程序可观察性的想法是不正确的。关于什么是监控工具中可观察性的实现,在供应商中存在着巨大的分歧和混乱。可观察性是应用程序及其支持基础设施的固有属性。观察性必须被设计进去。然后,工具才可以利用它。

可观察性的本质是必须关注全部的可用数据。观察单层数据只能提供一个孤岛式的视图。为了提供保持竞争力所必需的用户体验,企业必须升级基础设施,使其业务具有可观察性(见图1)

图1 使数字业务具备可观察性(来源:Gartner)
在这里插入图片描述

AIOps
通过部署AIOps技术,可以提供大多数现有监测工具所不具备的真正的自动推理能力,从而发现大量多维、高基数据的模式。这些技术包括异常检测、根因推荐分析和可视化增强工具等。

异常的出现很普遍,因为它们一直在发生。如果异常事件的产生概率是百万分之一,那么当你每天收集10亿个事件时,这种异常每两分钟就会发生一次。可观察性工具的关键是发现与当前问题相关的异常,然后从日志文件/指标中链接其他可能相关的信息位。通过在上下文中浮现相关信息,操作者可以更快地隔离问题的潜在根源。

为了使可观察性更为务实,可以将其定义扩展到包括:

从基础设施到应用的全部数据,以及用户体验、业务关键绩效指标(KPI)和社会情感数据。

这些元素之间的关系和依赖性。

为了理解应用并提供对业务状态的洞察力,IT运营领导者必须使用这种务实的可观察性,利用AIOps来检测模式并建立关联联系。

优点和用途
可观察性使组织能够减少确定影响性能问题的根本原因所需的时间。特别是,与传统的监测相比,操作人员可以自由地对数据进行事后查询,而不需要预先编制仪表盘。

实施可观察性的IT运营组织将实现其他的好处,包括:

提升最终用户的满意度。通过缩短发现问题的时间,提高应用程序的正常运行时间和性能,将减少客户流失,提高回报率,增加业务收入。

降低基础设施成本。通过查看生成的数据,可以优化基础设施,例如,减少过度配置和/或通过识别瓶颈来提高效率和吞吐量。

与开发流程更紧密的结合。遵循 “可观察性驱动开发”,也叫左移,意味着开发团队和运营团队都在用同一个概念来理解应用的性能–不管是什么应用。

提高对现代架构的覆盖率。可观察性强调对监测(Telemetry)的收集和分析,这意味着它可以适应新的基础架构范式,如容器化和微服务。

可观察性的潜在使用场景包括:

缩短上市时间。利用可观察性开发的应用程序将能够大大加快对中断的调查,特别是在复杂的环境中。这将缩短解决时间,提高开发效率,从而加快新功能的周转时间。

金丝雀部署。在现代DevOps环境中,一个常见的用例是使用金丝雀或蓝绿部署。这些场景允许开发人员在生产中向部分用户增量部署新的代码,其想法是控制问题的影响半径并易于回滚。可观察性可以在这里提供帮助,它允许SRE快速调查中断或问题,而传统的监控实施将是繁琐或成本高昂的。

采纳率和预测
Gartner预测,到2024年,实施分布式系统架构的企业中,将有30%的企业采用可观察性技术来提高数字业务服务性能,而2020年这一比例还不到10%。

可观察性环境还处于早期阶段,目前企业采用的比例还不到5%。然而,与Gartner客户的讨论表明,企业对这种方法的兴趣越来越大。尽管在监控工具上进行了几十年的投资,但是仍继续依赖客户来报告故障,企业对现有监控工具的局限性感到失望。

基于可观察性的运维创新
灵犀从2016年就开始帮助客户实现 AIOps 的转型与创新。我们清楚地认识到,可观察性是一种技术演化,而不是技术革命。我们帮助客户了解到IT运营过程中运维的全栈数据的重要性,逐步完成从独立的传统监控到全局的可观察性的转型。因此,灵犀的 AIOps 根因溯源产品才能有效落地,在故障预测、故障发现、故障定位、根因溯源等各个应用场景为客户实现有效的收益。

正如 Gartner 指出的那样,可观察性和 AIOps 在IT运营领域的进化已经拉开帷幕,但还处于早期阶段,灵犀将一如既往和客户一道在这条创新之路上不断探索下去。

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 深蓝海洋 设计师:CSDN官方博客 返回首页