2019年,“Kentik公司的一项调查表明,如今40%的组织认为自己是多云用户,他们的组织拥有两个或多个云服务提供商提供的云服务。三分之一的组织拥有混合云环境,其中至少有一个云计算服务提供商提供的云服务和内部部署数据中心或第三方的数据中心基础设施。 在此发展趋势下,IT运维管理工作进入了“运维最好的时代”,同时也是“运维最坏的时代”。企业在越来越重视IT运维对业务发展的价值的同时,发现IT架构发生了巨大变化。
- 业务部署模式极其灵活:公有云、私有云、混合云
- 业务节点分布极其广泛:很难到为业务提供支撑的XaaS实例的位置
- 调用承载关系极其复杂:微服务间的调用依赖数量相较从前呈指数级爆发
着眼于运维领域,面临如下困局亟待解决:
- 生产问题发现不及时:由于系统间服务调用关系不透明,以及传统“总量监控”的模式,造成交易链路中“问题服务”的影响无法快速进行预警与通知,运营监控存在一定滞后性。
- 排查问题工作量大:由于监控手段的限制,以及各系统运行数据标准不统一,生产问题的解决需调用大量“开发”与“运维”资源,且沟通成本较高。
- 解决问题效率低:由于各系统间运行数据没有统一的串联标识,以及记录标准不同,导致无法快速定位“问题服务”。
可观测性
由此,也引发了IT运维领域新的探索与实践,出现了不同以往的“SRE”、“可观测性”、“AIOps”等理念。为了解决新一代IT架构下上述难题,首先要解决系统运行状态数据化表征的问题,业界提出了“可观测性(Observability)”概念。 </