AIOps的七种武器:让IT基础设施实现“自动驾驶”

简介:2019阿里云上海峰会,由阿里云资深技术专家周琦带来以“基于AlOps的探索和最佳实践”为题的演讲。2019阿里云上海峰会,由阿里云资深技术专家周琦带来以“基于AlOps的探索和最佳实践”为题的演讲。AIOps意味着智能、安全的管控平台,阿里巴巴经过十年的变革在AIOps上有重大探索,那么AIOps究竟能够为大家带来什么益处呢?接下来本文将对AIOps进行详细的介绍。想看更多文章内...
摘要由CSDN通过智能技术生成

简介: 2019阿里云上海峰会,由阿里云资深技术专家周琦带来以“基于AlOps的探索和最佳实践”为题的演讲。

2019阿里云上海峰会,由阿里云资深技术专家周琦带来以“基于AlOps的探索和最佳实践”为题的演讲。AIOps意味着智能、安全的管控平台,阿里巴巴经过十年的变革在AIOps上有重大探索,那么AIOps究竟能够为大家带来什么益处呢?接下来本文将对AIOps进行详细的介绍。

想看更多文章内容:点击这里

原文出处:阿里云大学开发者社区

以下为精彩视频内容整理:

AIOps 能带来什么?

image.png

现在无人驾驶技术一直备受关注,无人驾驶技术从L1到L5一共有5个等级代表越来越智能的自动化程度,从目标来看,无人驾驶技术希望在安全驾驶的过程中不断去提升整个通行效率,并且降低整个公路的安全隐患,并降低污染的排放。
与无人驾驶类似,AIOps目标是为IT基础设施平台的运转提升效率,提升系统稳定性并解放人在运维上的投入。近几年来,云原生和容器服务使应用、发布、部署的环节效率能够大大加快,但在整个发布和运营的过程中环境的复杂性、应用部署规模、用户多样性等使得整体风险越来越高。AIOps目标就是通过数值驱动手段,在更快的发布效率同时兼顾更低的风险,减少人力投入,使得IT设施具备既快又安全的“自动驾驶”的能力。

飞天研发史:人与机器斗争史

image.png

飞天操作系统是阿里云的基础设施,要知道研发基础平台是一个非常复杂的事情。可以认为就是一部人和机器的斗争史。在第一个阶段,为了能够在大量机器上进行调试,我们使用了大量的监控工具解决可观测性的问题,这个阶段大约需要2个员工管理大小不等的20个集群。
在集群规模从20个变成400个过程中,工程师会花费大量的时间在如何标准化接入、标准化运营上。所以在这个阶段,主要任务就是如何把整个监控和分析能力标准化,接入自动化,本质上是一个把监控+运维工具标准化,服务化的阶段。
在第三个阶段由于集群规模和业务量的不断增大,我们所面临的问题更加复杂,传统手段往往很难解决一些比较复杂的可观测性问题。因此我们使用了大量数据化、智能化的手段进行尝试,获得了较好的结果,每个员工管理集群的和应用的能力,可以达到1:1000或者更高。
云原生和Docker技术解决了一部分运维和发布的负担,但对于个人承担的责任仍然变得越来越大,我们可以把应用上线的过程分成三个阶段:第一个阶段开发人员需要腾出一半的精力测试系统是否稳定、高效,代码是否有逻辑;第二阶段,在整个上线过程中,除了将产品发布以外,还需要花40%的时间在部署和运营上,让用户能够更好的运用产品;第三阶段为上线后阶段,除了运维和运营支撑外,还需要花时间关注安全问题,例如某个系统有没有人登录,登录之后是否做了一些非法操作等。

研发、运维、运营的挑战

image.png

作为研发(DevOps) 如何能在快节奏下做到以上的点呢?我们可以看一条非常著名的法则:海恩法则(Ohain's law)是德国飞机涡轮机的发明者帕布斯·海恩提出的一个在航空界关于飞行安全的法则,多被用于企业的生产管理,特别是安全管理中。海恩法则指出: 每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。法则强调两点:一是事故的发生是量的积累的结果;二

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值