简介: 2019阿里云上海峰会,由阿里云资深技术专家周琦带来以“基于AlOps的探索和最佳实践”为题的演讲。
2019阿里云上海峰会,由阿里云资深技术专家周琦带来以“基于AlOps的探索和最佳实践”为题的演讲。AIOps意味着智能、安全的管控平台,阿里巴巴经过十年的变革在AIOps上有重大探索,那么AIOps究竟能够为大家带来什么益处呢?接下来本文将对AIOps进行详细的介绍。
想看更多文章内容:点击这里
原文出处:阿里云大学开发者社区
以下为精彩视频内容整理:
AIOps 能带来什么?
现在无人驾驶技术一直备受关注,无人驾驶技术从L1到L5一共有5个等级代表越来越智能的自动化程度,从目标来看,无人驾驶技术希望在安全驾驶的过程中不断去提升整个通行效率,并且降低整个公路的安全隐患,并降低污染的排放。
与无人驾驶类似,AIOps目标是为IT基础设施平台的运转提升效率,提升系统稳定性并解放人在运维上的投入。近几年来,云原生和容器服务使应用、发布、部署的环节效率能够大大加快,但在整个发布和运营的过程中环境的复杂性、应用部署规模、用户多样性等使得整体风险越来越高。AIOps目标就是通过数值驱动手段,在更快的发布效率同时兼顾更低的风险,减少人力投入,使得IT设施具备既快又安全的“自动驾驶”的能力。
飞天研发史:人与机器斗争史
飞天操作系统是阿里云的基础设施,要知道研发基础平台是一个非常复杂的事情。可以认为就是一部人和机器的斗争史。在第一个阶段,为了能够在大量机器上进行调试,我们使用了大量的监控工具解决可观测性的问题,这个阶段大约需要2个员工管理大小不等的20个集群。
在集群规模从20个变成400个过程中,工程师会花费大量的时间在如何标准化接入、标准化运营上。所以在这个阶段,主要任务就是如何把整个监控和分析能力标准化,接入自动化,本质上是一个把监控+运维工具标准化,服务化的阶段。
在第三个阶段由于集群规模和业务量的不断增大,我们所面临的问题更加复杂,传统手段往往很难解决一些比较复杂的可观测性问题。因此我们使用了大量数据化、智能化的手段进行尝试,获得了较好的结果,每个员工管理集群的和应用的能力,可以达到1:1000或者更高。
云原生和Docker技术解决了一部分运维和发布的负担,但对于个人承担的责任仍然变得越来越大,我们可以把应用上线的过程分成三个阶段:第一个阶段开发人员需要腾出一半的精力测试系统是否稳定、高效,代码是否有逻辑;第二阶段,在整个上线过程中,除了将产品发布以外,还需要花40%的时间在部署和运营上,让用户能够更好的运用产品;第三阶段为上线后阶段,除了运维和运营支撑外,还需要花时间关注安全问题,例如某个系统有没有人登录,登录之后是否做了一些非法操作等。
研发、运维、运营的挑战
作为研发(DevOps) 如何能在快节奏下做到以上的点呢?我们可以看一条非常著名的法则:海恩法则(Ohain's law)是德国飞机涡轮机的发明者帕布斯·海恩提出的一个在航空界关于飞行安全的法则,多被用于企业的生产管理,特别是安全管理中。海恩法则指出: 每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。法则强调两点:一是事故的发生是量的积累的结果;二