近年来,可观测性建设已经成为企业数字化转型的高热话题,但大多数企业在实践落地过程中往往会发现,以往的建设模式并不能够在企业中发挥良好的作用,单纯的引入产品或工具已经没有办法达到建设需求。本期我们邀请到嘉为蓝鲸运维产品负责人宋蕴真,从战略管理,到组织度量,最后再到工具应用层面对可观测落地实践进行深度剖析,自上而下对可观测落地建设进行梳理,带您一步步深入探索可观测性的落地实践。
01. 战略目标:服务于业务
数字化转型是一个长期过程,早期企业IT运维主要还是面向物理设备,而随着技术架构的不断发展,运维对象逐渐向虚拟化、云化趋势发展,软件架构逐渐向SOA、云原生等架构转变。业务的线上化趋势下,传统IT运维往往无法及时感知和处理问题,企业运维处于黑盒化状态,在此背景下,运维管理体系需要向自动化、智能化转型,以服务于快速发展的企业业务。
在数字化转型过程中,运维的核心目标就是保障业务的连续性,IT运维整体的转型战略目标也需要始终服务于业务,在不同的建设阶段通过不同方法和手段,快速的发现问题、解决问题可观测是IT数字化转型宏伟目标的其中一步,通过可观测体系的建设,不断提炼运维数据价值,帮助和驱动业务部门决策,并在这个过程中对IT组织进行持续的度量和改进,最终更好的推进企业数字化转型宏伟目标的实现。
1)可观测建设的核心目标与挑战
可观测的建设是服务于业务的,首先需要细分并明确可观测建设的核心目标。
更少的线上问题:当业务出现问题时,往往不是独立存在的,可能会引起上下游的组织、业务、人员出现更多的问题,导致组织的效率低下或运维成本增加,而通过可观测建设,减少问题的出现,能够解放他人,让更多的人员能够投入到其他工作中,实现降本增效。
更短的问题恢复时间:IT业务几乎无法避免问题的出现,SLO也不可能是100%,如何提早发现问题,更快的解决问题,或者采取自动化的方式处理重复工作,从而将运维人员自己解放出来,投入到更加价值的工作中,也是可观测的核心目标之一。
更好的用户体验:业务最终是面向用户的,通过可观测的建设,提高系统稳定性和可用性,保障良好的用户体验,真正服务于用户。
控制好成本:生产成本的控制往往也离不开可观测,企业的降本增效需要IT能够快速感知资源状态,从而合理度量和分配IT资源,实现精益生产。
与此同时,云原生技术下的IT系统日益复杂,历史系统、工具难以一时替换,而国产替代、自主可控又提出了新的要求,实现目标的挑战也越来越大:
海量:面向大集群、多中心的集中观测,技术挑战、系统可用性挑战高。
历史包袱、烟囱林立:监控工具多,相互独立,数据分散,管理复杂,烟囱林立。
工具联动弱:运维工具难以互联互通,监控处置慢,人员协同差,运维效率低,告警模式单一,无故障根源分析能力。