摘要: 从用户的声音中,我们听到用户对稳定、弹性、透明的诉求,我们也在不断升级ECS的运维能力和体验,助力用户建立主动运维体系,赋能业务永续运行。为了让大家更好的了解和用好ECS弹性计算服务,从本期开始,我们会以专栏的形式不断更新ECS运维方面的内容,也欢迎大家多提宝贵建议和意见,帮助我们打造更好的弹性计算服务。
阿里云经过9年多的发展,成长为中国第一全球前三的云服务提供商,为上百万用户提供IT基础设施云服务。这些用户几乎都会使用ECS弹性计算服务,这其中既有面向消费者(to C)、企业(to B)提供服务的互联网应用、电商、娱乐等类型的用户,也有面向企业内部效率提升搭建信息化数字化平台和应用的用户,还有广泛的个人网站、开发者等,不论哪种类型的用户,从购买创建第一台ECS云服务器开始,就已经进入了云上使用和运维的阶段。
与传统IDC环境相比,云上运维有哪些差异?大量的计算资源怎样方便快捷地部署、管理?如何发挥弹性响应业务负载变化的同时保持较低TCO总拥有成本?ECS出现异常是什么原因,如何保持业务连续性?……等等这些,是很多用户在使用和运维ECS过程中提出的问题。从用户的声音中,我们听到用户对稳定、弹性、透明的诉求,我们也在不断升级ECS的运维能力和体验,助力用户建立主动运维体系,赋能业务永续运行。为了让大家更好的了解和用好ECS弹性计算服务,从本期开始,我们会以专栏的形式不断更新ECS运维方面的内容,也欢迎大家多提宝贵建议和意见,帮助我们打造更好的弹性计算服务。
今天,我们先来聊聊从On-Premise本地化运维到On-Cloud云上运维的演进历程。
On-Premise本地运维
在互联网服务和云计算兴起之前,IT技术多是为企业内部的信息化服务,而企业的IT能力多建设在On-Premise本地部署基础之上。企业基于其公司战略、运营模式、流程体系、组织架构等业务发展需要和特点设计对应的IT架构,通过建设自有数据中心或租用第三方IDC构建IT基础设施资源,在此基础上搭建应用系统,支持企业的发展。相应地,企业IT组织会设立开发、运维等职能的团队,以满足业务发展变化的需求和业务连续性的保障。
早期的IT设计多为企业内部信息化的需要服务,通过引入ERP、MRP、MES、PLM、CRM等商业软件,优化企业业务流程,提升企业运营效率。由这些商业软件解决方案的技术架构所决定,对应的基础架构多以商业数据库、小型机等专有服务器、光纤连接的存储区域网络(SAN)、存储阵列、磁带库等为主,这类基础架构组件以集中度高、单体稳定性强、纵向扩展为显著特点,通过单机扩展提升处理能力,实施技术难度较大,周期较长,管理复杂度较高,因而逐渐形成了以ITIL为最佳实践的运维管理体系,注重流程规范和控制风险。
随着互联网的发展和企业通过互联网与其客户紧密连接的需要,支撑企业对外服务客户的IT设计也逐渐发展和成熟,通过广泛应用开源软件,建立企业对客户的电子商务、社交网络、数据分析等能力,优化用户体验,提升客户价值。由这些开源软件解决方案的技术架构所决定,对应的基础架构多以开源数据库、X86通用服务器、本地块存储、对象存储、数据以太网络为主,这类基础架构组件以分布式部署、集群架构、横向扩展为显著特点,通过向集群增加节点扩展处理能力,实施随业务的快速变化而定,周期较短,方案组合灵活,因而逐渐形成了以DevOps为最佳实践的运维管理体系,注重效率敏捷和快速响应业务需求。
两种典型运维管理体系都会建立基础运维和应用运维团队,且由于初始投资较大,影响范围广泛,企业会格外重视硬件投资和基础运维工作,并安排经验丰富的基础运维工程师维护数据中心、服务器、存储、网络等硬件和软件工作。由于基础设施资源有限,设备采购、部署实施和调整周期较长,因而运维团队会设立一系列制度和流程,管理和控制资源的使用以及容量规划。
On-Cloud云上运维
云计算的兴起,为企业建立有竞争优势的IT能力提供了更强的支撑。企业IT组织利用云计算提供的按需自助服务、资源池化、弹性扩展伸缩、广泛网络连接等服务特性,进一步提升企业信息化和数字化能力,在快速变化的行业环境和日趋激烈的市场竞争中脱颖而出。
在企业IT组织中,不论其运维体系是以注重流程和管控的ITIL理念还是以注重效率和敏捷的DevOps理念为核心,面对On-Cloud的趋势,不变的始终是保持对业务需求的响应和对系统可靠性业务连续性的保障。而借助云计算的诸多特性和优势,企业运维的重心从重视面向基础环境的运维转向重视面向业务应用的运维,更有效地支撑企业战略和业务发展。在架构层面,借助云计算广泛多样的产品和服务,企业IT架构从竖井式向共享服务式发展,通过水平分布的系统架构实现对可用性的保障,并提升弹性扩展的能力,数据的流转提升对业务的洞察。同时,借助云计算资源池化、监控和编排等能力,IT运维组织对资源的使用和容量规划可以与业务变化及研发需求更紧密灵活地结合,从管控模式向服务模式转变;API、SDK的广泛使用使基础设施可编程,自动化的部署和编排进一步促进环境准备、灰度发布、在线变更的效率。
在互联网企业中,由于天生就需要面对大流量高并发的业务需求,往往从第一天搭建开始就已经采用了Cloud Native或Cloud Friendly的系统架构和运维方式。随着公有云服务的发展和成熟,互联网服务普遍采用All on 公有云或混合云的部署结构,会更适应On-Cloud云上运维形态,运维的重心保持在如何支撑快速发展变化的业务规模,弹性响应业务波动,快速高效地管理大规模海量资源等方面。