【观察】智算中心操作系统落地,浪潮云海的远见与实践

申耀的科技观察

读懂科技,赢取未来!

今天,从中央到地方、从政企到民间,“新基建”和数字经济被擢升到前所未有的战略高度。其中,以5G、工业互联网、大数据中心等创新技术引领的“新基建”,更是重中之重。

2020年,浪潮前瞻性地提出“智算中心”概念。所谓“智算中心”指的是智能时代面向社会全域多主体的新型公共基础设施,它集算力生产供应、数据开放共享,智慧生态建设和创业创新聚集四大功能于一体,能够为海量数据存储、处理、分析及应用需求的各种场景提供支撑的载体和平台。

在此过程中,智算中心的建设也需要一个优质的操作系统来作为中间的“桥梁”,这就是由浪潮云海OS升级和进化而来,并在日前进行全球首发的智算中心操作系统。不仅如此,浪潮云海OS还完成了全球最大规模OpenStack单一集群1000节点的“云数智”的融合实践,可以说全面体现了浪潮云海OS作为智算中心操作系统的极致能力。

正如浪潮信息副总裁张东所说:“如果说硬件是基础,那么软件就是灵魂,作为整个智算中心中最重要的中枢神经系统,智算中心操作系统未来将向下负责将物理设备真实算力转化为资源服务,通过强大的管理和调度能力,向上对接各类基于数据智能的应用需求,最终实现以云数智高度融合为代表的智慧计算服务。”

毫无疑问,浪潮云海OS向智算中心操作系统的“演进”,正是浪潮云海过去多年来“富有远见,勤于实践”的真实印证,而这种前瞻力、创新力以及行动力,不仅会为智算中心的全面落地打牢基础,也会进一步提速未来行业“云数智”融合的建设步伐,其价值和作用重大而深远。

浪潮云海进化与迭代

张东认为,数据中心从最初的超算中心,到云数据中心,再演进到今天的智算中心,操作系统的存在不仅仅是资源的汇集与调度,更多是通过“上云、用数、赋智”来驱动数据以及计算能力产生更多智慧化应用。同样,智算中心与过去的云计算中心相比,其负责的资源复杂度与规模将会产生很大变化,对操作系统的需求必然也会更多、挑战更大。

浪潮信息副总裁张东

回头来看,浪潮云海OS也经历了同样的演变历程,最初云海OS主要是以虚拟化集群管理、初级的多租户运营运维为主;2015年开始,围绕着开放、融合、敏捷,开始以OpenStack为核心构建数据中心操作系统,实现了虚拟、裸机、容器的统一管理及增强;从2019年开始,在云海OS5.8版本中,浪潮进一步融入AIOps、AI服务,以OpenStack、K8s等开放基础设施为“底座”,构建出了云数智一体化平台并提供智能化服务,逐步演化和升级到了今天的智算中心操作系统。

那么,作为全新的智算中心操作系统,浪潮云海OS究竟有哪些与众不同的特点呢?我们可以从四个维度来做观察:

一是,极致开放,浪潮云海OS以“OpenStack”和“Kubernetes”双核驱动,通过对开源开放技术的攻坚,突破了开源版本在性能、大规模管理能力等方面的瓶颈。在此基础上,浪潮云海OS也在积极利用自身开源优势构建生态,通过对接各种各样、更复杂的管理平台,融合更多服务器、存储、网络以及安全的功能来形成云海OS的生态繁荣。

二是,极致融合,浪潮云海OS具备强大的融合能力,支持虚拟机、裸机、容器统一调度及混合编排的资源融合、跨域互联互通互操作的多云融合、一体化云数智融合。同时,通过融合实现对企业内部IT资源统一管理,为全场景业务提供统一支撑,提升资源使用效率,降低运维管理复杂度等。

三是,极致敏捷,浪潮云海OS在安装部署、扩容改配、业务运营方面体现极致的敏捷性。例如,基础设施方面实现10分钟全局参数优化调整、1小时单POD扩容,5分钟组件升级等;而在业务运营方面,实现了应用秒级上线、应用配置变更实时生效等,所见即所得,应用全生命周期极致高效。

四是,极致智能,浪潮云海OS可以将各种智能加速设备充分利用起来,并且将数智结合去调度、释放算力,还可以通过浪潮AIStation智能管理平台提供智能服务,将AI技术提升平台本身的运维与管理智能化程度,由此增强运维和管理的能力。

“智算中心在智慧化时代,已经成为必不可少的一个基础设施,而作为智算中心的灵魂,浪潮云海OS也将继续秉持开放、融合、敏捷和智能的理念,不断地去把智算中心中的更多新技术用好,管好,发挥好,与广大的客户以及合作伙伴携手进入一个崭新的智慧化时代。”张东说。

由此可见,通过不断的进化与迭代,浪潮云海OS从云数据中心一跃成为智算中心的操作系统,这背后正是浪潮云海一直坚持的探索与创新精神的重要体现。从某种程度也可以说,在数据中心基础设施操作系统的演进之路上,浪潮云海OS既是早期的探索者,也是落地的实践者,更是未来的推动者。

从500到1000的质变

事实上,这种探索与创新的精神,不仅体现在云海OS进化与迭代的演进之路上,也体现在浪潮一直致力于将云海OS“普惠”到企业核心生产应用和云平台搭建的落地实践上。

此前,浪潮在多年的云平台建设中就发现,大型用户的云平台实践普遍面临大规模的挑战。随着内外部用户数量的增长,单一应用和服务的规模变得愈发庞大,需要同时部署数百甚至数千台虚拟机。如果使用多个小规模集群构建云平台,应用和服务的跨集群部署、管理、升级会变得异常困难甚至无法实现,因此对单一集群的规模产生了强烈的需求。

基于这样的考量,2019年,浪潮云海完成了单一集群达500节点的大规模测试,是当时基于OpenStack Rocky版本的全球最大规模单一集群实践,而在2020年11月25日,浪潮云海又一次成功完成全球最大规模单一集群达1000节点的云数智融合实践,实现了规模、场景、性能的整体突破,体现了量变到质变的全面升华。

首先,是规模更大。1000节点大规模实践相比500节点,在控制节点不变的情况下,集群规模扩大了一倍,存储扩大3倍达到240节点,计算节点增加1.8倍达到720节点,安装、部署、扩容、装配全生命周期时间不变。

其次,是场景更全。从OpenStack测试升级为云数智全栈融合测试,并在云平台软环境部署交付效率上也有优异表现。3天完成了1000台服务器从环境改造、上架和云操作系统安装部署,融合运行海量大数据处理业务及大规模云原生业务,全面支撑传统业务、云原生业务、大数据业务、人工智能应用等场景化需求。

最后,是性能更高。1000节点大规模测试刷新了SPEC Cloud权威基准测试世界纪录,OpenStack实现3000个虚拟机高并发创建,密度可达5万,30分钟内完成百节点裸机发放;容器实现1000节点管理,3万POD并发创建,20万POD管理,10万应用管理;存储实现240节点管理,10万卷分布式存储,单节点1万IOPS,单集群240万IOPS;SDN实现2到7层网络10万台虚拟机统一管理配置,流量灵活调度,全面展示了云海OS的极致性能。

浪潮云计算与大数据产品线首席架构师亓开元

在浪潮云计算与大数据产品线首席架构师亓开元看来,从500节点到1000节点大规模测试的升级,其价值主要体现在两个方面:

一方面是为了“实兵演练”, 测试的是数据中心从集群的安装部署到资源的编排、下放,上线运行到扩容升级,全局的改配以及故障定位的全过程,这样可以检验整个平台的装配能力、扩展能力和运维能力;另一方面是为了给业界建立参考的设计规范,这次大规模的测试也再一次扩大了浪潮云海OS在大规模集群管理方面的领先优势,同时通过“云数智”的融合极大丰富了大规模集群的应用场景,进一步完善了行业建设大规模云集群参考设计规范,为今后企业数智化转型提供更加重要的支撑。

更为关键的是,这种大规模的测试还丰富了智算中心操作系统的内涵和外延,通过高度抽象化的应用以及各种应用场景的检验,不仅验证了浪潮云海OS作为智算中心操作系统的极致的扩展性、可用性和稳定性,同时也创建了未来大规模云平台落地的新范式。

加速云数智全面融合

客观的说,今天“云数智”正在加速融合,很多企业也正在从云化、数字化正在走向智能化,因此这个过程不应仅仅体现数据汇集过程,而是必须通过云边端一体的打通,从海量的数据中筛选有价值的部分,同时让AI的算法、算力以及各种能力在整个产业链路上进行灵活调用,才能够真正的实现企业的智能化变革,而这些应用无疑对云基础设施底层架构乃至操作系统的规模化、集中化、智能化都有着非常严苛的要求。

对此,张东认为:“未来的数据中心一定是融合架构。通常来说计算、存储、网络以及安全都可以通过软件完成定义,后续凭借硬件重构+软件定义来支撑多个应用场景,当然其中可能涉及传统计算场景也有当下比较流行的云原生场景,也包括在智算中心中大数据应用场景以及人工智能应用场景等等。”

以AI算力的高效运用为例,目前的各种AI服务器,无论是通用加速器还是FPGA加速服务器,抑或是AI芯片都是比较昂贵的,如果单一的AI服务器只给一个人使用的话,势必造成资源的严重浪费;另外由于AI推理端使用的资源非常复杂,这就导致有的模型适合在处理器上运行,有的模型则适合使用GPU这样的处理器,还有一些模型适合FPGA和AI加速器组合使用效果更佳,如何调度好这些算力资源,也是智算中心操作系统未来要去解决的问题。

因此,浪潮云海面向未来也会通过开源开放、持续创新以及普惠赋能,让智算中心可以更快的得以落地,从而加速推动整个企业和社会的“云数智”融合,具体来看:

第一,浪潮云海会坚定的走“开源开放”之路,同时通过自己的实践来回馈开源社区。目前,在OpenStack第21个版本Ussuri中,浪潮在代码提交数、完成蓝图数、起草蓝图数、补丁修复数和参与人天数均达到全球前列、中国第一。

除此之外,刚发布的第22个版本Victoria,浪潮在社区中的贡献还体现在Nova(计算)、Cinder(块存储)、Cyborg(加速)、Vitrage(根因分析)、Manila(文件存储)等核心模块上,并主导完成Nova通过Cyborg管理加速设备的特性、贡献Inspur GPU、FPGA、NVMe SSD等硬件设备驱动。值得一提的是,近期浪潮云海还在OpenStack中贡献的一个新项目,名为“VENUS”,它可以通过对OpenStack各个模块日志可视化的分析,找出系统可能存在的问题,直观展现给用户,并及时通知用户处理的合理方法,像“啄木鸟找虫子”那样实现日志的分析和监控。

第二,浪潮云海还将进一步强化自身的核心竞争力,通过不断丰富产品的特性,满足更多用户的应用场景需求。比如,在云原生领域,浪潮就发布了云海容器云平台InCloud K8S,并在今年9月发布了V2.2版本,该版本新增了微服务治理功能,并在应用管理、应用部署、应用中心等方面全面升级,实现针对容器化业务场景的全面覆盖。

与此同时,面对行业客户数据存储及管理难、价值挖掘效率低下、资源利用不均等痛点,最新升级的企业级大数据平台软件浪潮云海Insight V6,能够帮助用户快速构建智能、高效、敏捷、安全的大数据处理平台,为企业数字化、智能化转型提供领先的大数据基础设施。

第三,浪潮云海未来也希望通过“普惠化”的赋能,全方位帮助企业实现“云数智”的融合与创新。张东表示,很多传统企业的应用改造之路依然比较漫长,从集中式架构走向分布式架构,会遇到很多的挑战,而浪潮所提出的智算中心理念,从硬件到软件架构都是在互联网应用的实践中沉淀而来的,同时作为智算中心操作系统的浪潮云海OS,也通过开源开放、大规模的实践验证以及广泛联合生态合作伙伴,让新的计算架构和体系架构,能够为更多的企业用户提供更好、更大的支撑。

阿尔文·托夫勒(Alvin Toffler)在80年代风靡全球的《第三次浪潮》中曾写道:“唯一可以确定的是,明天会使我们所有人大吃一惊。”而在四十年之后,当初他提出的信息化和数字化,已经再造了全球经济的新格局。

从这个角度来看,浪潮云海OS从云数据中心跃迁为智算中心操作系统,背后不仅是浪潮持续坚持创新和探索的印证,也是对未来智慧化时代的一种提前预见和实践,更标志着浪潮云海成为了一个可以自我升级演进的智算中心操作系统平台,这让它能够站在全新的起点之上,加快推进智算中心的落地,并更好的使能全行业的创新。


申耀的科技观察,由科技与汽车跨界自媒体人申斯基创办,18年企业级媒体工作经验,专注产业互联网、企业数字化、渠道生态以及汽车科技内容的观察和思考。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值