【编者按】
吕新刚,David Lv, VMware 云计算业务架构师。本篇文章节选自他参与撰写的《中国IT运维能力建设指南》(清华大学出版社)一书中的第七篇第一章。
---Begin---
一、前言
运维管理不是新话题,绝大多数企业在长期的运维管理过程中都会借鉴和引入了一些先进的管理方法和理念来完善自身的管理,云作为一个新生事物,在改变资源供给模式的同时也对运维管理提出了新的变革要求,这种变革既要采用自上而下,总体设计的方法,借鉴先进的方法论针对云环境的运维对现有运行制度和人员角色进行重新定位以充分释放云计算的能量,促进企业IT的提升,也要自下而上,充分考虑云计算的强技术特性,针对新技术的引进检视管理盲区,采用合适的解决方案。本文就是从实践角度出发,对某行业客户在构建云计算环境中遇到的几个云运行环境的运维新问题或薄弱环节进行了分析,并针对该类问题采取了一些改进实践措施,以下以企业A来代称该客户。
二、当前用户的基本现状和面临的挑战
企业A从2014年开始大规模构建云计算平台,底层虚拟化环境广泛采用的是vSphere技术平台,在构建过程中发现,如何针对构建后的云计算环境进行运维是个急需解决的问题,之前该企业已经构建了较完整的监控运维管理平台,但发现该平台主要是基于传统环境构建的,对当前云化后的环境存在一些空档,如原有监控管理主要针对的是传统的硬件,操作系统,数据库,中间件,网络等组件,但针对虚拟化环境的覆盖是不足的,特别是对于虚拟化技术引入后的云化带来的新的管理需求和挑战考虑不足。
经过几轮调研和讨论初步确定未来的云计算环境下运维管理面临的一些具体挑战如下。
1、配置变化更快,统计分析难,数据不准确
u 云环境虚拟机的产生和释放频度远高于物理环境,平均来看生命周期更短,变化更频繁,因此对其配置状态的跟踪更复杂,整个系统范围内的资产信息更难掌握,传统的统计办法不及时也不准确。
2、容量性能评估难,难以有效分配资源
u 不同于物理机,云环境中多台系统共享资源,不同的业务系统对资源的需求周期不同,传统的系统级CPU,MEM的占用已失去绝对指导意义,并不能完全代表系统资源是否存在瓶颈。
u 同样的道理难以判断服务器资源是否得到了充分利用,是否有必要优化,虚拟机密度是否恰当,企业内部存在较广泛的资源闲置情况。
3、管理缺乏标准和规范
u 虚拟化层在整个系统构建中占的位置越来越重要,但与OS相比系统级的加固和检查机制相对薄弱,成熟度及普及度都不高,存在系统缺陷,安全漏洞,管理不规范等薄弱环节,容易成为新的木桶短板。
4、系统状态更复杂,难以准确评估状态
u 虚拟机环境涉及系统硬件,操作系统,网络以及存储,系统环境更加复杂,传统的设备边界不再那么清晰,承载的VM对资源既共享又竞争,所以系统处于不断的动态调整中,故障域的耦合更加紧密,针对问题根源的判断更加困难。
u 单一类型的监控指标很难判断系统的健康状态,必须收集该物理机上运行的多台虚机机状态进行综合分析。
u 指标专业性强,理解其含义需要专业知识。
其实该用户并不是特例,虚拟化层在现有的基础架构中相对于传统环境是新出现的事物,而恰恰正是这一层的变化带来了当前数据中心基础架构层次巨大的变化,进入了云时代,但当前各企业对云计算的基础虚拟化环境的运维管理还处于空白或非常初级的阶段,这与虚拟化环境在企业IT中所提供的价值和体现的重要性严重不符,IT部门迫切需要成熟的专业管理工具来更有效的管理云环境。而针对传统环境的管理方法和工具在高度动态,系统高度融合(计算、存储、网络)的云环境下存在严重不足。这种不足,会给用户带来如下痛点:
u 虚拟化环境缺乏有效深入的监控措施,管理被动,问题无法及时发现,出现无法有效分析。
u 安全管理上基本无针对虚拟化环境的管理规范,手段及工具,安全短板问题较明显。
u 资产配置信息缺乏深入及时准确的统计分析,基本靠手工,信息与实际环境偏差较大。
u 由于Cloud环境的资源共享和动态配置特性,云环境下的资源管理变得更加复杂难控,资源的惊人浪费和局部资源的紧张情况同时存在存在,如何判断充分利用这些资源,配置合理的虚拟机比例是新环境下的新管理要求。
u 缺乏相关分析报表和面板视图,对于云环境较大规模的环境缺乏全局管理能力。
基于上述分析,我们针对A企业的实际情况提出云环境运维管理的几个关键目标及能力需求如下表所示。
目标 |
基本思路 |
面临的问题 |
需要的能力 |
健康:提高系统可用性 |
降低故障率,提高故障平均间隔时间MTTB; 尽可能缩短故障处理时间,减少MTTR。 |
缺乏适用于虚拟化环境加固策略和自动化手段; 缺乏完善的虚拟化环境的监控指标体系,专业分析和处理能力,传统工具能力不足(具有部分故障发现能力,缺乏故障分析和处理能力)。 |
安全加固-清理系统隐患,系统加固,确保系统符合安全、规范等最佳实践方面的要求; 故障生命周期管理(故障发现,故障分析,故障解决); |
风险:降低管理及系统风险 |
定期检查,确保系统各方面符合管理和法规标准,消除风险隐患; 借助故障报表分析是否存在系统问题,不断优化系统; 加强对虚拟化资产的管控,及时掌握资产分布和使用情况。 |
缺乏适用于虚拟化环境管理的规范要求和自动化处理手段; 缺乏针对虚拟化环境的专业数据分析能力; 虚拟化环境的配置数据采集空白,手工统计不现实; 持续的性能监测及负载分析能力。 |
合规审计-确保系统符合业内标准管理规范如PCI,ISO以及企业内部管理规范要求; 运行分析,系统优化-专业报表,专家面板,专家建议; 配置管理; 合理分配工作负载。 |
效率:提高效率,降低成本 |
提高资源利用率,减少无效资源损耗,合理配置,合理规划资源需求; |