编者按:本文源自阿里云云效团队出品的《阿里巴巴DevOps实践指南》前往:https://developer.aliyun.com/topic/devops,下载完整版电子书,了解阿里十年DevOps实践经验。
阿里巴巴的运维团队致力于打造无人值守的运维平台,用智能化推动高效率、低成本的应用运维。智能运维是运维平台实现信息化和数字化之后的自然发展,利用扎实的技术基础,把机器学习、优化算法和各个专业领域方面的知识完美结合起来,针对具体运维场景提供令人满意的解决方案。
智能运维( AIOps )是依托于阿里巴巴 DevOps 经验沉淀而来的智能化运维平台,通过运维大数据的积累,以及算法团队多种算法的校对,我们将运维提升到新的高度,通过 AI 来帮我们查看数据、判断异常、决策运维操作,形成监、管、控一体化的运维平台。
运维体系面临的挑战
DevOps 运维时代,阿里巴巴运维体系面临如下挑战:
第一,规模化。阿里巴巴的基础设施规模呈指数级增长,在服务器数量是千级别、万级别的时候还勉强可以通过人为操作来运维,但发展到百万级别的时候,任何一个步骤依赖纯人为操作都是不现实的。服务器规模百万级的时候,如何保证整体运维安全、高效的进行是第一个挑战。
第二,高复杂。阿里巴巴业务的多样性及高速发展也对系统稳定性提出了更高的要求,对运维体系带来更大的挑战。曾经我们考核系统可用率 7 个 9,存储方面达到 6 个 9 就很好,但是盒马鲜生这样的业务是要求 100%可用。作为线下业务,在盒马店有半小时不能支付是无法接受。我们要从全链路视角出发,关注每个环节的稳定性建设。
第三,成本优化。成本是门槛,做不到一定的门槛,进入这个市场的机会都没有。除了固定资产投入,运营成本也是很重要的一部分。利用技术进行流程优化,降低各个部分的成本,是提高业务的核心竞争力的关键。
第四,安全。云计算最关心的是安全。系统越来越大,变化越来越快,所面临的内部和外部的风险也越来越大。每天无数变更升级同时进行,如何在系统变更时保持稳定,是需要面对的另一个巨大挑战。
阿里巴巴基础设施的体量和复杂性,显然都超过了人脑的处理能力,需要从新的视角,应用机器智能来解决这些复杂的问题。
智能运维实践
基于上面的挑战,我们在阿里巴巴集团各个业务场景落地了无人值守发布、无人介入运维的解决方案。
无人值守发布 (Unmanned Deploy)
全新一代发布平台支持滚动、蓝绿、金丝雀等多种发布模式。通过算法