背景介绍
随着移动互联网和智能终端的发展,电信行业遇到了巨大的挑战,当运营商面对市场逐步趋于饱和、业务增长乏力、创新面临挑战等多方面问题困扰现阶段,可更多的考虑对内进行资源整合优化,减少成本,提高效能,解决公司现阶段面临的压力。公司通过对内进行同类IT系统资源整合优化,实现集中化、规模化、专业化管理,进而提升整体运营效能。集约化运营,一方面实现成本内控,另一方面大大提升运营管理效率,最终达成“节本增效”的目标。
运营商随着多年的积累,云管理平台越来越多,现有“烟囱式”多系统并存发展,造成系统间设备复用程度低,每个系统都独立搭建,分别配置对应服务器、存储设备、网络设备、数据库软件等。多系统并存,重复建设导致现有资源,未实现最大化利用,一定程度上造成资源浪费。同时,多系统建设所购置的软硬件型号庞杂,大大加大了维护难度大。运营商迫切需要形成一套统企业级云管理平台,通过创建集中化、多元化、专业化、模块化管理模式,统一管理不同部门的多个资源池,确保能够在任何地域提供一致的服务体验与感知。
需求分析
客户目前已完成业务支撑、网管业务和IDC业务3类业务资源池建设,现有3类业务资源池被3个独立的管理平台进行管理,3个管理平台功能均为管理计算、存储、网络、数据库以及软件等资源的端到端的全流程管控,并对资源池系统内部的各类软硬件提供运维管理支持,三大管理平台的对于虚机、物理机、网络、存储资源的分配基本一致。
业务支撑:承载业务支撑系统与管理支撑系统,主要部署X86服务器,迁移多个应用系统,上层管理平台已经基本完善IAAS层计算资源池的管理。
网管业务:承载网管支撑系统与业务平台,主要部署X86服务器,迁移多个应用系统,上层管理平台管理范围以IAAS为主。
IDC业务:承载IDC业务(公有云),主要部署X86服务器,上层管理平台主要提供公网IP等服务。
目前3类业务分别有各自的管理平台,管理平台建设分散,将导致功能重复及软硬投资重复,严重造成资源浪费。
客户需要构建一套统一管理平台,即企业级云管理平台,实现公司IT资源的优化整合,并进行统一管控,保障资源和服务的全生命周期管理,推动资源管理标准化和服务标准化,整体提升管理效率,达成“节本增效”目标。
建设新的企业级云管理平台,具体要满足以下需求:
• 实现公司IT资源的统一管控
• IT资源的申请、审批、部署、交付都由统一平台集中处理
• 支持IaaS服务的自动开通、部署和统一监控
• 实现资源/服务的全生命周期管理
• 推动资源管理标准化和服务标准化,提升管理效率
建设方案
通过SkyForm CMP云管理平台产品,给客户建设一套企业级云管理平台,替换现有3套管理平台,管理内容涵盖业务支撑、网管和IDC的所有资源池,实现统一运营、统一运维和集中资源管理。
SkyFormCMP专为管理多数据中心、多资源池的异构混合云计算环境而构建。无论是传统工作负载、高性能计算工作负载,亦或是云工作负载,SkyForm CMP都能够在一个云环境中进行“一站式”管理。它利用常用的虚拟化、云计算技术架构作为基础,同时具有管理多个数据中心资源、多资源池、租户和项目的扩展能力,并且支持弹性伸缩、开放、可扩展的平台无缝集成能力,支持私有云和混合云的统一管理。
SkyFormCMP系统架构图:
SkyFormCMP主要特性:
SkyFormCMP有效掌控虚拟化环境,构建和管理私有云和混合云。随着企业用户的业务需求不断变化,SkyForm CMP的功能得到不断完善。它可以在帮助企业用户朝着基础架构即服务(IaaS)模式发展的同时,有效管理企业用户的现有资源,并同时提供从虚拟化架构迁移到私有云架构管理,或从私有云架构迁移到混合云架构管理的能力。
• 从现有虚拟化环境向私有云架构转换
借助SkyForm CMP,企业用户可以将现有虚拟化环境转变为私有云或混合云,还可以无缝添加新的云计算技术架构平台,进一步扩展企业云计算技术架构模型,充分享有该产品带来的低成本、高性能、高密度、更具创新性等诸多优势。
• 异构混合云统一管理
提供覆盖所有主流云计算技术架构平台的统一界面,提供统一的服务目录和统一的实例生命周期管理,形成“一站式”的管理控制台。
• 用户自助服务门户和自动化配置
支持通过基于Web的方式访问特定资源,并在所有虚拟化和云基础架构上提供基于角色的自动化配置、配额管理、审批流程、告警策略。
• 基于企业组织结构的资源管理
通过基于企业组织结构的部门管理、租户管理、项目管理,将企业内部组织结构同私有云架构相结合,形成适合私有云或混合云的资源管理方式。
实现难点
纳管既有资源
将之前的3套云管理平台删除后,只保留资源池,新的企业级云管理平台同这些资源池对接后,需要将这些资源池中的资源纳管进来。网络设备和存储设备这样的资源数量相对比较少,可以通过人工的方式进行录入,但是对物理机、宿主机和虚拟机这些资源,通过人工录入的方法就很费时间了。
1) 难点一:企业级云管理平台需要支持物理机信息批量导入功能,而不是采用人工方法手工录入。
2) 难点二:企业级云管理平台需要自动纳管既有资源池中的宿主机和虚拟机,对于虚拟机来说数量巨大,无法通过人工方式录入,并且虚拟机是可以进行自动迁移的,并且是有生命周期的,所以也无法通过实现准备好的文件进行批量导入。
3) 难点三:企业级云管理平台需要支持异构资源池,因为之前资源池有的是vSphere,有的是OpenStack,所以需要同时支持这两种类型的资源池,而且还要支持每种类型资源池的不同版本。
管理网络资源
整个企业级云管理平台,需要将私网IP、公网IP、VLAN、SDN网络设备、传统网络设备统一管理起来。对于SkyForm CMP云管理平台来说,需要同时对接SDN网络设备和传统网络设备,对于SDN网络设备,可以通过Web Service API进行对接;但是对于传统网络设备,只能通过Shell Script来进行对接。
1) 难点一:由于网络设备对外接口没有统一标准,所以不同厂商的网络设备需要使用不同的Web Service API或者Shell Script来对接。
2) 难点二:由于网络设备在不同的数据中心机房中,而不同数据中心对于网络设备的配置是不一样的,所以需要针对不同数据中心来配置Web Service API或者Shell Script的使用顺序和使用方式。
3) 难点三:网络设备在数据中心机房中起到了核心作用,客户现场网络设备都已经运行在生产环境中,通过SkyForm CMP来对接这些生产环境中的网络设备,如果稍有不慎,就会造成生产环境业务中断,导致不可挽回的损失。
4) 难点四:网络设备主要包括交换机、路由器、防火墙、负载均衡,对不同类型的网络设备需要执行不同的操作,比如在防火墙上配置安全策略,在负载均衡上配置负载均衡规则,如果找错了对应的设备,那么就会导致配置失败,甚至会造成网络阻塞、业务中断,也可能会产生不可挽回的损失。
管理存储资源
客户现场环境中存在多种品牌的存储设备,存储管理就需要将不同厂商的存储设备抽象出统一的对象模型,并进行了统一管理。SkyForm CMP采用SMI-S统一的存储管理协议,将存储设备的硬件信息采集,软件信息,资源管理,性能采集等汇聚在同一页面,可以轻松进行比较分析,具有端到端的性能分析能力。
1) 难点一:虽然具有SMI-S这样的统一存储管理协议,但是不同厂商不同型号的存储设备对SMI-S的支持都是不一样的,需要根据每种型号存储设备进行对接。
2) 难点二:客户现场存储设备都已经运行在生产环境中,通过SkyForm CMP来对接这些生产环境中的存储设备,就像是对接生产环境中的网络设备一样,如果稍有不慎,就会造成生产环境业务中断或者业务数据丢失,也会导致不可挽回的损失。
业务流程管理
之前有3套云管理平台,分别管理业务支撑资源池、网管资源池和IDC资源池,而且是分配给3个不同部门的人分别使用的,不同部门的使用习惯也都不一致,不同部门的管理流程都不一致。
现在使用一套企业级云管理平台将所有资源池统一管理后,需要业务支撑、网管和IDC分别延用之前的管理流程,也就是说所在SkyForm CMP上要实现三套不同的流程。
分权分域管理
因为之前通过3套云管理平台分别管理3中不同类型的资源池,所以从管理的角度来说不同类型资源池对不同的管理员是隔离的。
现在使用一套企业级云管理平台将所有资源池统一管理后,仍然需要不同的管理员只能操作自己管理的资源池,比如业务支撑管理员登录到SkyForm CMP后,只能操作业务支撑资源池,同样业务支撑用户只能申请业务支撑资源池的资源,但是系统管理员登录到SkyForm CMP后就可以操作所有类型的资源池。
使用一套企业级云管理平台后,还可以实现资源池共享,也就是说网管管理员也可以使用业务支撑资源池中的空闲资源,所以需要SkyForm CMP提供给客户分权分域管理能力。
这样带来了管理上的复杂性,需要通过SkyForm CMP可以方便的查询出一种业务使用了哪些资源,同时也需要通过SkyForm CMP可以方便的查询一个部门拥有哪些资源,更加复杂的是需要通过SkyForm CMP可以查询某个项目使用了哪些资源,如下图所示:
项目总结
通过SkyForm CMP构建运营商企业级云管理平台后,通过创建集中化、多元化、专业化、模块化管理模式,统一管理不同部门的多个资源池,确保在任何地域提供一致的服务体验与感知。
通过SkyForm CMP还给客户带来了其他统一云管理的好处:
• 提高管理能力:实现一套云管理平台对五个数据中心十五个资源池,总计6000+节点的统一管理。
• 提高投资回报率:通过对不同业务使用场景和虚拟化集群单独配置overcommit参数,使资源使用率提高20%~40%,节省数千万投资。
• 提高运维效率:将虚拟资源同物理资源、物理位置、业务应用、企业部门建立关联关系,从运维的角度提高故障排查效率20%,将故障对业务的影响降到最低。