前言
不知不觉异数OS已经发布5年了,5年来Linux依旧原地踏步,最近甚至爆出维护支持从6年降为2年,这是闭源商业逻辑的胜利和开源传销逻辑的破产体现,劣币驱良币终究要有人无以为继,承担传销恶果,而异数OS在闭源商业逻辑的愿景支撑下,已得到了更多的进步。
异数OS大禹开发背景:
最近有消息称8张nvidia a100在17B gpt大模型推理中战胜了一座知名的超算中心,这是令人振奋鼓舞的消息,这意味着一些重要的应用体验将不再是超算的专属玩具,随着大模型的广泛开发应用,热数据的分布式计算存储墙效率问题成为木桶短板效应中的最短板,已严重影响大模型的开发效率和经济成本效率,因此将异数OS基础理论移植到GPU环境将有希望缓解存储墙问题,提高分布式计算效率降低成本。
目标能力:
- 在GPU上直接实现TCPIP协议。
- 不依赖CPU调度在GPU上实现Pipeline的全流程调度,与OpenGL的以线程为单位的计算调度模型不同,异数OS以Pipeline为调度单位,因此相对OpenGL的线程调度计算模型,Pipeline上的计算任务不再需要关心复杂玄学的线程组同步,这将大大提高算法开发效率和GPU算力利用效率。
- 在OpenGL基础上实现,使得他在消费应用领域得到更广泛的支持,希望在未来的手机上也可以跑gpt的推理任务。
为什么需要在GPU上跑异数OS:
-
在分布式计算环境中,GPU非常依赖CPU操作系统调度网卡来做数据搬运,任务调度,如果