从 Gartner 2023 年重要战略技术趋势看 SRE 的发力点

最新推荐文章于 2024-08-20 17:42:52 发布

运维夜谈

最新推荐文章于 2024-08-20 17:42:52 发布

阅读量312

点赞数 1

分类专栏： SRE 文章标签：运维职场和发展

本文链接：https://blog.csdn.net/m0_47646705/article/details/129373228

版权

SRE 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

每年，Gartner 都会选择一些具有重要战略意义的技术趋势，并将这些趋势整理成一份报告对外发布。

2022 年 10 月 18 日，Gartner 发布了 2023 年十大战略技术趋势。Gartner 表示，多数业务领导者如今正忙于应对经济衰退和持续通胀的影响，以及供应链、能源采购和数字技能方面的危机。因此，这些技术趋势旨在助力企业明确技术优先事项，帮助企业明确并推进企业战略目标和举措，应对未来的不确定性。

这些技术趋势在一定程度上反映了大多数企业正在做以及未来将要做的事情，所以我们可以透过这些技术趋势思考 SRE 的未来发展和发力点。

下面我将列举这十大技术趋势中我认为与 SRE 相关以及值得 SRE 借鉴思考的趋势，完整的十大技术趋势清单可以参考官网发布的新闻：https://www.gartner.com/cn/newsroom/press-releases/2023-top-10-strategic-tech-trends。

数字免疫系统

根据 Gartner 的描述，数字免疫系统结合了可观测性、人工智能增强测试、混沌工程、自动修复、站点可靠性工程以及软件供应链安全领域的实践和技术，旨在提高产品、服务和系统的韧性。

数字免疫系统可作为参考框架，指导企业机构投资相关实践，提高关键业务系统的质量和韧性。

SRE 最主要的职责就是保障业务系统的稳定性、提高系统的质量和韧性。这是一个说起来只有几个字，做起来却很难的事情。

如何提高系统的稳定性，绝不是说按部就班的支撑业务需求，出现问题时处理问题就完了。SRE 工程师要去建立完善的稳定性保障体系，一个完善的稳定性保障体系包含了很多方面的工作，包括：建立可靠地变更和发布流程、建立完善的可观测体系、建立有效地事故的应急预案和处理流程、通过混沌工程排查并优化系统架构的脆弱点、建设完善的自动化平台以降低人为因素的风险、实现故障自愈手段等等。

稳定性保障的工作内容中有很多还没有规范可循，需要 SRE 工程师多学、多看、多想，学习别人的经验，结合自身的知识储备，去挖掘更多的潜在风险，并通过完善保障体系来防范风险，不要等着事故发生。

建议可以先从以下几点出发去考虑：

检查监控是否已完善，监控指标是否覆盖全，这里说的不仅仅只是 CPU 使用率、磁盘使用率、进程存活这些常见的监控指标，还应该结合业务去完善更多的监控指标，比如数据入库延迟、请求处理耗时等；
检查应用是否具备高可用（至少是单机房的高可用），高可用切换是否有效。高可用的切换验证不仅仅只是验证服务器宕机情况下是否可以切换，还应该考虑若进程存活但业务功能不可用时是否可以切换，并且还要考虑切换应用的便捷性；
检查工作流程是否规范。应用发布之前是否具备完善的测试、数据操作前是否评估过风险、引入新的组件前是否有做详细的评估、故障发生后是否有完整的复盘流程等等；
检查是否有完备且可操作性强的应急手册。很多故障发生时，故障处理的耗时往往是发生在人身上，运维人员不清楚故障该如何处理，需要联系其他人员介入，这个过程会浪费大量的时间，所以要有完备的应急手册，让运维人员在故障出现时可以及时恢复业务；
反思当前的工作效率是否低下，是否存在很多人为因素，如是，则要考虑逐渐完善自动化流程。

应用可观测性

在 Gartner 的定义中，应用可观测性是指，以高度协调和整合的方式在业务职能部门、应用和运维团队中应用可观测的数据，尽可能缩短行动与响应之间的延迟，实现业务决策的主动规划。应用可观测性能够支持企业更快做出更准确的未来决策。

虽然这里的可观测性指的是通过业务数据为业务决策提供支撑，但对 SRE 来说，可观测性也是 2022 年谈得特别多的概念。

对 SRE 而言，可观测性与监控息息相关，可以将可观测性理解为使用 Metric、Log 和 Trace 三种数据来理解软件内部状态的能力，这也是监控体系要做的事情，而监控则是 SRE 最基本和最重要的能力之一。

可观测性跟传统监控的区别，我觉得在于思维上的转变。传统监控倾向于当某个事件发生时触发告警提醒运维人员，而可观测性则倾向于通过更全面的监控数据提前预知风险，时刻知晓系统运行情况。

如前面所说，在进行可观测性建设时，要多考虑现有的监控指标是否足够完善，可以考虑引入混沌工程来协助测试系统的脆弱性，进而反推监控指标的完善。

行业云平台

行业云将传统上单独购买的云服务，纳入预集成但可定制（可组装）的行业相关解决方案，实现了从通用解决方案到行业定制平台的转变。行业云平台可以理解为就是为不同的垂直行业提供特定的解决方案。

基于云的运维这几年一直呈现出很明显的趋势，而云原生的发展势头也是非常猛烈。对 SRE 来说，云原生技术，比如容器技术、Kubernetes、Service Mesh 等等，也是不可或缺的技能。

平台工程

根据 Gartner 的描述，为了支持开发者、数据科学家和终端用户，减少工作中的摩擦，前瞻性企业已开始搭建运营平台，在用户与后端服务之间建立连接。平台工程汇集了很多可服用的工具、能力和流程，最终的目标是打造无摩擦的自助服务体验，为用户提供正确的能力，帮助其以最少的成本完成重要工作，提高终端用户的生产力，并减少他们的认知负担。

我觉得平台工程其实也是 DevOps 的落地，对 SRE 来说，为了提高工作效率以及防范人为因素风险，是需要逐渐去开发和完善自动化工作平台的，需要不断地去思考怎么最大化的实现自动化，打造完善的工具链，所以平台研发能力是 SRE 需要持续不断提升的能力之一。

自适应AI

自适应 AI 系统可以从过去的人类和机器经验，以及运行环境中学习行为模式，支持模型行为在部署后进行调整，以更快地适应不断变化的现实世界。

这一项技术趋势对 SRE 来说，我觉得更多的借鉴意义在于要掌握数据分析和智能运维的能力，通过 AI 的能力来辅助运维，以达到提升运维效率和精准度的目标。

比如我们说要通过构建可观测体系来提前预知风险，那么这里就需要引入 AI 的能力实现告警预测的目标。

此外，智能运维的典型应用场景还包括：无阈值告警、根因定位、智能调优、智能决策等等。

以上 5 项技术趋势就是我觉得值得 SRE 借鉴和思考的方向。

总结一下，我觉得 SRE 的发力方向有两点：

保证业务稳定性：这是 SRE 的首要职责，要达到这个目标，在流程和技术层面都有很多事情可以做，但不管做什么事情，都要从业务角度出发，才能更好地实现业务稳定性，不懂得站在业务角度思考问题，学会再多技术也是没有用武之地的。
提升效率：在保障业务稳定运行的同时，SRE 还要考虑如何提升工作效率，通过自动化、智能化技术来规避人力的弱点。

dbaplus 社群在前不久发布了一份 SRE 体系建设指南，涵盖了团队建设、流程建设、工具链完善以及 SRE 必备知识库等多方面的内容，是由美团和虎牙的 SRE 架构师共同制作的，想更全面了解 SRE 体系的，可以参考这份指南，原文链接：

dbaplus图谱丨SRE体系建设及职能转型指南（附高清电子版）