从微软“星际之门”看多机操作系统

Laxcus虽然被称为“分布式操作系统”,但是本质属于多机多集群的操作系统。Laxcus通过网络,把一堆分散的物理的硬件的计算机,聚合成为一台集中的虚拟的软件的的“超级计算机”,在此之上实施集群管理和大规模计算。在计算能力上,Laxcus分布式操作系统千万倍强于单机操作系统,同时在编程和开发应用软件方面,开发者可以像编写单机应用软件一样,编写基于Laxcus分布式操作系统的应用软件;当使用计算机集群时,系统管理员和用户可以像使用一台计算机一样,管理和使用计算机集群,大幅简化了管理使用成本。基于此进行延展,Laxcus又实现了计算机集群的分布式化,进一步扩大集群管理规模和超大规模计算能力。目前Laxcus能够管理的计算机节点上限,单集群状态下,可以达到8000-10000个节点,多集群状态,超过100万个节点。以这样的管理规模和能力,Laxcus分布式操作系统足以把全国算力中心的服务器连到一起,形成“全国算力一张网”。

根据公开的消息,微软和OpenAI为GPT-6联合开发的AI算力集群:“星际之门”,它的软件基础设施:操作系统,为了方便集群管理,简化大规模分布式并行计算,也引入了与Laxcus分布式操作系统一样的多机多集群模式,目前不确定的是否采用了与Laxcus分布式操作系统一样的设计和技术路径。未来并且待“星际之门”验证成功多机多集群模式后,也将用多机多集群模式改造Azure云计算平台,实现算力融合和统一化。还有最近闹得沸沸扬扬的微软迁移中国AI研发团队的消息,里面有一批从事分布式操作系统和算力集群的研发大牛,他们到美国后,将与美国研发团队一起,研发面向超大规模算力集群的新一代操作系统。

单机操作系统 vs 多机多集群操作系统

相比在单机操作系统上搭建、部署分布式运行环境,来组织实施大规模计算,多机多集群操作系统,把多机、多集群、分布式、并行计算的功能下沉,集中到系统层面实现。通过对集群管理和大规模计算的重新设计和升级改进,拥有算网一体能力的多机多集群操作系统,具备对单机操作系统降维打击能力,以及产品和技术上优势。这些优势,主要体现在以下几点:

1. 计算时间更短,计算能力更强

若深究两种操作系统的本质,单机操作系统属于串行计算的操作系统,所有计算工作只能在一台计算机上实施。而多机多集群操作系统属于并行计算的操作系统,计算工作扩展到多台计算机和多个计算机集群上同时实施。在计算能力上,多机多集群操作系统 vs 单机操作系统,处于纯粹的降维打击和碾压状态。面对同样的计算业务,多机多集群操作系统,能够以更短的时候,更快更强得到计算结果。

所以,未来单机操作系统更适合处理个人业务,比如PC、手机市场仍然是单机操作系统主导。而多机多集群操作系统将占领服务器和算力市场,成为企业业务的主流操作系统。

两个市场将泾渭分明、从此深度分流。

2. 更容易设计、编写、开发大型计算业务

以Laxcus分布式操作系统为例,为协助开发者开发分布式和并行计算的应用软件,提供一套用于分布式和并行计算的应用软件开发函数库,即DSDK(Distributed SDK)。在这套函数库里,集成了所有与分布式、并行计算、网络通信、资源管理调度使用的函数接口。无论用户的计算机集群中有多少台计算机,开发者都可以像面对一台计算机一样,使用计算机集群中的所有软硬件资源。这是Laxcus分布式操作系统相比单机操作系统的核心竞争优势。DSDK保证了开发者在使用海量算力资源的同时,又能够像编写单机应用软件一样,编写具备超大计算能力的Laxcus分布式应用软件。在单机操作系统的简单编程,和多机操作系统的大规模复杂计算和算力输出之间,实现完美的平衡。

3. 统一和简化了分布式环境的整体设计

对于统一和简化分布式环境,仍然可以通过单机操作系统和Laxcus分布式操作系统对比来说明。

单机操作系统只提供对一台计算机管理能力,分布式业务,需要在单机操作系统之上,搭建分布式环境来实现。这就造成了整体环境的复杂化,以及稳定性可靠性不足的问题。很多公开的互联网公司事故,很多的故障原因,最后都可以追踪系统环境上。

Laxcus分布式操作系统把这些工作下沉到操作系统来实现。

Laxcus分布式操作系统分为后端和前端两个部分。在Laxcus的后端,是海量计算机组成的计算机集群,计算机集群的规模可以根据用户需求动态伸缩。集群的运行和管理工作,也是Laxcus结合AI模型实施,很少需要管理员处理。在Laxcus前端,是包括图形桌面和命令行字符控制台的人机交互界面,所有的操作指令和人机交互作业,都从前端的人机交互界面发出,分发到后端的计算机集群上并行执行。这意味着用户的后端集群无论有多少台,在前端的操作界面上,都像是一台计算机一样。相比单机操作系统上执行大规模计算业务,用户真接体验的感受是:计算时间更短,计算能力更强。

4. 降低运维成本

这里仍然以Laxcus分布式操作系统和单机操作系统进行对比来说明。

有一位系统管理员,管理着1000台Linux服务器(好像有点多)。现在他要通过命令控制这1000台服务器,这里他有两个选择:(1)跑到每台Linux服务器操作;(2)编写一个脚本文件,运行它对1000台Linux服务器逐个操作。这两个办法,无论哪个,都很麻烦。但是放在Laxcus分布式操作系统上,这个工作就简单多,Laxcus分布式操作系统会把1000台服务器视为一个整体,一条命令解决,大幅降低了运维成本。而且Laxcus分布式操作系统内部的所有工作都是并行处理,相比单机操作系统的串行处理,时间成本也大幅缩减。

目测,多机多集群操作系统做为软件基础设施,凭借微软在操作系统40多年的技术、产品、市场集累,和以比尔.盖茨为代表的一众行业大佬们的前鉴性眼光,加之星际之门、Azure云的带头作用,未来的算力市场,必然引发一轮操作系统淘汰更新潮。新一代的多机多集群操作系统,将全面取代目前普遍使用的单机操作系统。人工智能、云计算、互联网平台、服务器、算力集群、超级计算机领域,也将引来一波代际更换。多机多集群操作系统取代单机操作系统,是未来必然发生的历史事件。

放到国际和国家层面,因为人工智能的全面带动作用和全产业的辐射作用,能够为人工智能提供大规模计算支持,简化、设计、开发、运营人工智能业务成本的多机多集群操作系统,必然也是中美下一轮科技竞争的核心战场。它决定了未来二三十年中美基础科技的优劣,谁拥有科技市场主动权,谁能引领产业市场,谁更有能力领导和控制世界,决定未来的世界走向和格局。

  • 21
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值