阿里智能运维实践|阿里巴巴DevOps实践指南

编者按:本文源自阿里云云效团队出品的《阿里巴巴DevOps实践指南》前往:https://developer.aliyun.com/topic/devops,下载完整版电子书,了解阿里十年DevOps实践经验。

阿里巴巴的运维团队致力于打造无人值守的运维平台,用智能化推动高效率、低成本的应用运维。智能运维是运维平台实现信息化和数字化之后的自然发展,利用扎实的技术基础,把机器学习、优化算法和各个专业领域方面的知识完美结合起来,针对具体运维场景提供令人满意的解决方案。

智能运维( AIOps )是依托于阿里巴巴 DevOps 经验沉淀而来的智能化运维平台,通过运维大数据的积累,以及算法团队多种算法的校对,我们将运维提升到新的高度,通过 AI 来帮我们查看数据、判断异常、决策运维操作,形成监、管、控一体化的运维平台。

运维体系面临的挑战

DevOps 运维时代,阿里巴巴运维体系面临如下挑战:

第一,规模化。阿里巴巴的基础设施规模呈指数级增长,在服务器数量是千级别、万级别的时候还勉强可以通过人为操作来运维,但发展到百万级别的时候,任何一个步骤依赖纯人为操作都是不现实的。服务器规模百万级的时候,如何保证整体运维安全、高效的进行是第一个挑战。

第二,高复杂。阿里巴巴业务的多样性及高速发展也对系统稳定性提出了更高的要求,对运维体系带来更大的挑战。曾经我们考核系统可用率 7 个 9,存储方面达到 6 个 9 就很好,但是盒马鲜生这样的业务是要求 100%可用。作为线下业务,在盒马店有半小时不能支付是无法接受。我们要从全链路视角出发,关注每个环节的稳定性建设。

第三,成本优化。成本是门槛,做不到一定的门槛,进入这个市场的机会都没有。除了固定资产投入,运营成本也是很重要的一部分。利用技术进行流程优化,降低各个部分的成本,是提高业务的核心竞争力的关键。

第四,安全。云计算最关心的是安全。系统越来越大,变化越来越快,所面临的内部和外部的风险也越来越大。每天无数变更升级同时进行,如何在系统变更时保持稳定,是需要面对的另一个巨大挑战。

阿里巴巴基础设施的体量和复杂性,显然都超过了人脑的处理能力,需要从新的视角,应用机器智能来解决这些复杂的问题。
在这里插入图片描述

智能运维实践

基于上面的挑战,我们在阿里巴巴集团各个业务场景落地了无人值守发布、无人介入运维的解决方案。

无人值守发布 (Unmanned Deploy)

全新一代发布平台支持滚动、蓝绿、金丝雀等多种发布模式。通过算法,机器学习方法对应用发布过程进行异常检测,从而避免由于代码变更导致的故障。基于大量监控数据、日志数据的积累,并有算法的加持,我们推出了无人值守发布系统。

无人值守发布 riskfree 系统上线以来,从探索到实现再到优化经历了将近三年的时间。目前业务范围定义在应用发布时故障预防。接入无人值守发布的应用在提交发布单后,系

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值