目前业界真正的智能化运维的落地实践其实并不多,大多还是停留在自动化甚至人工化阶段,然而智能化运维是大势所趋,对于大公司来说,更是尤为重要。阿里大数据SRE团队历时2年时间完成了Tesla这一智能化运维体系的设计、开发和落地。基于此,我们采访了阿里Tesla体系负责人熊胜(池枫),希望能带给大家对智能化运维的一些新的思考。
InfoQ:什么是智能化运维?请谈下您的理解。
熊胜:2016年可以说是人工智能的元年,各行各业都在讨论智能化,都在尝试将智能在各自领域落地。运维这个传统意义中“劳动密集型”行业对智能化的诉求其实更有现实意义。
我将运维方式分4个层次,“人工、自动、智能、智慧”,我通过蔬菜大棚浇水灌溉的案例来进行类比:“人工”的概念就是我们农民亲自挑水,然后一株一株的浇;“自动”就是我们在这个大棚里面部署好了洒水管,人只要打开水管总阀,就完成了浇水的动作,省去了一大部分的体力劳动;“智能”就是整个大棚可以根据环境、天气、时间等日常基于传统农业思维的的变化而进行自主的浇水灌溉,它可以替代一个高级农业生产者基本的能力。另外我们今天要引出一个“智慧”化的概念,就是我们的这套体系能够精确化了解每一株作物的实时状态,再判断他是否需要水,需要多少水后进行定制灌溉的智能系统,这样既能够省水又可使得作物生长更好,这个时候这套系统控制大棚灌溉的效率已经超出我们人在这个领域的能力。
InfoQ:目前业界智能化运维的发展状况如何?
熊胜:当前的运维行业可以说是处在一个人工、自动、智能互相交叠的时期,任何一家公司都希望将人工运维的风险控制在最低限度,并使用流程系统自动去完成日常的运维工作。然后通过提升应用监控的质量以及大规模日志的分析能力,在部分运维事务中形成闭环,完成自治运维。随着大数据、人工智能的兴起,我们愈发不满足于了解当下,希望能精准的预见未来,所以智慧化也悄然而起。
InfoQ:你们的智能化运维使用了哪些技术产品?为什么选择这些技术?
熊胜:阿里大数据SRE团队智能化通过Tesla产品体系建设和各类在阿里大数据产品之上完成的数据化运营来实现。Tesla有一整套自动化解决方案,如T-flow一种运维工作流程管理平台,如ICS一种通用化的连接事件和动作的智能连接平台,如TDS故障智能排查平台等。我们采用logtail 完成业务日志收集,通过大数据产品MaxCompute离线计算平台和Galaxy流计算引擎进行数据处理。
选择这些技术产品,首先是基于我们对自动化、智能化、智慧化三个阶段的拆分和判断;其次是满足我们对积蓄未来数据的渴求。
InfoQ:能否谈下你们在智能化运维实施过程中的几个关键点?
熊胜:如之前所述,智能化依赖自动化,自动化好比替换人的双手,再智慧的人,没有行动能力,那也只是停留在纸上谈兵阶段。同理,不会独立思考的系统也只是一个木偶,行动也只会盲目混乱。所以,我们在实施过程中紧紧抓住两个关键点:末端控制系统建设和运营分析系统建设。
其中在末端系统上先后完成了T-flow (Tesla workflow management platform) 、AEC(app environment config)、CC(crond center)等系统来解放我们运维人员的双手。在运营分析体系建设上,我们通过建设统一paas平台,推动产品提供全面运维标准化支持方案,实现产品业务数据收集的标准化。利用流计算平台,实时分析我们业务运行日志,判断系统容量、服务等状态的变化,驱动我们的自动化产品进行联动。利用日积月累的海量数据,离线分析产品资源利用的合理性和制定长期的规划。
InfoQ:你们是如何实现智能化运维监控的?如何推进智能化运维的落地?
熊胜:这里提到智能化运维监控,我认为是一个以传统监控数据为基础,通过大数据的计算能力挖掘和预测的过程。传统的监控为了发现现在的错误,智能化监控为了预测潜在的问题,进而实现更加全面和体系化的监控生态。
我们在智能化运维监控领域目前也只能说刚刚起步,仍然有大量的工作要去做,具体落地方向包括推进各类产品指标输出的标准化、代码仓库和故障源的关联分析,最重要的是基于具体产品业务的数据提升特定关键指标去逐步推进。
InfoQ:您觉得如何建设一个高效易用的智能化运维体系,具体的实现需要考虑哪些因素?其中最大的困难和问题是什么?
熊胜:体系首先是由产品组成的,运维体系同时也跟运维的业务紧密不可分,所以我认为产品设计和业务匹配度是核心因素。如何设计一个能够兼顾多种异构业务的运维产品是首先要解决的困难,另外就是人的因素,被动向主动转变,传统的业务能力与最新的数据分析技术的结合也是关键。
InfoQ:智能化运维是否意味着运维工作量的减少?智能化运维的价值主要体现在哪些方面?
熊胜:我觉得“运维工作”今天需要被重新定义,传统的运维被赋予繁重但是低价值的标签,就如石油钻井平台的产业工人,干着又苦又有风险的工作,苦劳远大功劳。但是其实我们一直是站在黑色的金子之上没有去发现,石油经过加工提炼可以生成出昂贵的产品例如(化妆品)。通过智能化运维只是降低了我们在“传统运维”事务上时间的投入,但有更长的产业链需要我们进入挖掘,运维工作向上关联业务发展,向下关联基础建设,对整个公司的长期发展能起到举足轻重的作用。所以相反,我们的工作变的更“多”更“重”了!跳出传统的运维思维,压力相比之前更为巨大。
智能化运维的价值不仅让我们运维人相比以前可以更加省力了,而且能使我们有更大的精力投入到更高附加值的运维事务中。通过技术、数据提升人力资源、财务资源、基础建设等方面的效率,在整个公司生态中拥有更大的话语权,这才是真正的运维价值。
InfoQ:您认为从“起夜家”到“数据驱动的业务专家”华丽转型的优秀智能运维人员需要具备哪些能力?有哪些途径可以帮助成长?
熊胜:我认为优秀的运维人员转型需要具备以下能力:
- 对基础的系统掌握能力
- 对业务产品的理解能力
- 优秀的编码能力(精通python、java、Golang等)
- 容器化、大数据计算、机器学习算法与业务场景结合的能力。
这4个方向里面涉及到的内容其实非常广泛,每一块都需要较大精力的投入和长时间的积累。没有特别的捷径,多实践多思考吧!
InfoQ:感谢熊胜接受我们的采访!
受访嘉宾介绍
熊胜(池枫),2011年加入阿里巴巴基础架构事业部大数据SRE部门,见证阿里大数据产品最快速的发展过程,先后负责阿里Hadoop、HBase、Apsara、ODPS等产品运维,全程负责大数据运维自动化体系建设。目前负责大数据SRE自动化开发团队,历时2年时间带领团队完成Tesla自动化体系设计、开发、落地、进化历程。专注智能运维在大规模异构集群下的场景应用,专注业务运维与智能运维结合后的转型道路探求。