近年来,随着企业业务的越来越复杂和需求越来越多样化,企业数字化转型进一步深入,业务系统也日趋复杂。IT资源规模越来越大,种类越来越多,需要IT服务的人也越来越多,需要的响应也越来越快。在数字化转型,云原生的趋势下,自动化运维也正在发生着变化。
对于越来越复杂的运维来说,将人工操作逐渐改变为自动化管理是一个重要发展趋势。自动化运维,核心目标是由自动化的机器驱动的操作代替人工操作。
自动化运维的发展趋势
随着云计算和AI的发展,自动化运维也在持续的发展。我们总结了当前自动化运维的核心发展趋势:
1)自动化运维从传统的面向计算,网络,存储等基础设施资源在往面向应用架构发展;
2)私有云,公有云和专有云的普及,自动化运维不能仅仅局限于传统的以操作系统为中心,需要更好的支持各种云的各种云服务,而不局限于AWS EC2,阿里云ECS等;
3)云原生,微服务,容器普及,自动化运维需要更好支持新型的资源和应用架构;
4) DevOps普及,自动化运维不再是IT运维人员的工具,更需要变成面向全体技术人员的普遍服务;
5)需要越来越强大的分析能力。这里的机器替代人工,不仅仅是替代运维人员的操作过程,更核心的是替代操作前的人工思考,分析,决策过程,而完成操作本身的自动化是执行过程。这些新的需求,新的趋势,都需要更加新型的工具和平台来支持。云管理平台作为面向云的IT管理平台,承担起了越来越多的自动化运维的任务。本文将介绍骞云SmartCMP如何提供更加新形态的自动化运维能力。
构建面向多云的自动化运维能力体系
一个完善的自动化运维体系至少应包括三类平台:IT管理平台、监控平台和资源管理平台。骞云SmartCMP云管平台是通过单一控制台, 基于TOSCA 标准的蓝图建模技术,连接、编排和分析包括私有云、公有云容器平台、x86 裸金属服务器、 SDN、 SDS 等在内的多云环境,从而构建新型的自动化运维能力体系。
01多云资源的端到端的自动化运维能力
随着私有云,公有云和专有云的普及,自动化运维也不能仅仅局限于传统的以操作系统为中心,需要更好的支持各种云的各种云服务,而不局限于AWS EC2,阿里云ECS等。SmartCMP平台将不同云上的基础资源层、应用层、业务层上的多种资源抽象成多个服务,并管理和监控这些服务的全生命周期,以此实现一站式跨云运维。
平台通过Ansible,代理提供强大的脚本自动化能力,主要包含:
1)提供脚本库,支持包括SQL脚本在内的多种脚本类型,加强脚本分享能力;
2)支持MySQL,Oracle数据库执行SQL脚本的运维操作;
3)通过作业流水线,自动化执行多脚本场景,完成文件分发、安装补丁、自动化巡检、数据库运维等多种运维任务。
基于上述强大并开发的平台级的功能,SmartCMP构建多种通用的传统自动化运维场景,不仅仅包括传统的对操作系统批量打补丁,还将系统巡检、合规性检查从特定资源扩展到任意云资源, 从而极大丰富自动化运维的覆盖面。
02强大的应用服务编排能力,提供面向应用的自动化运维能力
传统的自动化运维往往是将IT基础设施资源与应用软件分开进行运维的,每个节点都相对的孤立,没有很好的联动。为了更好的支持业务部门,SmartCMP平台面向应用架构,将IT基础设施和应用软件结合统一,实现自动化运维。
SmartCMP平台通过蓝图将应用软件和IT基础设施按照统一的协议规范进行封装,将软件的交付模式标准化。通过部署拓扑图我们可以快速实现应用软件及IT基础设施上的运维操作,如:启动、重新启动、挂起、停止、执行脚本等。
03强大的容器管理和编排,构建面向云原生架构的自动化运维能力
云原生,微服务,容器正日益成为主流的IT基础设施形态。自动化运维不仅需要支持非云资源,云化资源,也需要支持云原生资源。
SmartCMP平台通过统一的蓝图和服务模型,对云原生和微服务应用提供强大的自动化运维能力。
同时深度集成Helm,并对Kubernetes上容器化应用进行如下操作:
1)应用程序封装
2)版本管理
3)依赖检查
4)应用程序分发
此外,SmartCMP平台将蓝图、流水线功能、Kubernetes集群和审批系统整合在一起,实现应用跨集群、多阶段自动化部署,并对应用全生命周期进行管理。
04集成监控告警和分析,构建强大的自动修复自动化运维能力
IT资源变多,变复杂,出现问题的可能性也在变大,解决问题的难度也会随之增加。这就需要自动化运维平台不仅仅拥有创建和变更云资源,云服务的能力,还需要有强大的发现问题,解决问题的能力。
为了构建完整的故障自愈体系,骞云SmartCMP拥有灵活的监控和告警,故障分析、定位和修复能力。具体场景示例如下图:
当监控系统触发事件是通过手动处理的方式时,平台会使用自身的工单系统或者第三方集成的工单系统,通过多种即时通讯软件对运维人员进行告警通知。
当监控系统触发自动处理方式时,平台能基于根据客户定义的流程策略,实现系统的自愈能力,解决客户只能通过手动处理告警的弊端,协助客户往AIOps的方向改造。
SmartCMP平台之所以能够实现强大的自愈能力,主要是因为SmartCMP平台拥有全方位、细粒度的资源监控, SmartCMP平台提供的全方位监控主要包括:
1)基础设施层:物理机、虚拟机、容器、云主机和各类云资源等;
2)中间件层:数据库、缓存和配置中心等各种系统软件;
3)业务应用层:应用软件、企业消息中间件等。
从上述数据源中,采集业务、应用、系统软件的的全方位指标进行建模分析,从而提供准确、智能、分级的告警机制。
SmartCMP平台的自愈修复能力和变更能力,ITSM的工单,审批等有机融合,从而构建完整的故障自愈能力。
05提供面向全体技术人员的自动化运维即服务能力
传统自动化运维是IT专业运维人员的工具,简化运维人员的人工操作。随着数字化转型的发展,IT的敏捷性也是整个企业敏捷性的关键。如何将面向运维人员的自动化运维能力,拓展的整个企业的技术人员的IT自动化服务能力,也是新型自动化运维系统的新需求。
骞云SmartCMP云管平台将面向运维人员的自动化能力与自服务体系结合,通过规范流程、标准、策略,提供用户云资源和云服务的自服务,包括自助申请、审批,日常运维自助操作、监控信息自助查询、自助续租或回收资源等,从而将运维人员从重复运维工作解脱出来。
同时,越来越多的云资源,云服务申请和变更从运维人员执行,到业务用户执行,再到各自业务场景自动触发,最典型的就是DevOps中的CICD过程。为了构建面向企业的自动化运维即服务体系,SmartCMP也通过流水线融合了CICD流程,通过流水线可以非常方便的使用任意自动化运维能力,如下图所示:
总结
自动化运维在云计算和企业数字化转型的影响下,在运维对象,运维场景,服务对象等多方面都在发生本质变化。骞云SmartCMP云管平台能够帮助企业构建面向多云,云原生,DevOps,自服务的新型自动化运维体系,从而自动化一切可以自动化的人工分析和操作。