摘要
DeepSeek开源全栈通信库DeepEP,优化GPU间信息传输,解决AI算力焦虑。特点包括NVLink优化、RDMA低延迟内核、AI智能分拣和FP8压缩技术,实测提升速度降低延迟,实现“无感传输”,降低大模型训练成本。
2 月 25 日,致力于开源并放送福利的 DeepSeek 抛出了一张惊世王牌——开源全球首个面向 MoE 模型的全栈通信库 DeepEP。正因为其直接化解了 AI 算力方面的烦忧,GitHub 瞬间斩获 1500 星(意即收藏量),圈内人士顿时群情激昂,其重要程度不言而喻。
很多人好奇DeepEP意味着什么?
想象一下双十一时的快递驿站:2048 位快递小哥(GPU)于 200 个仓库(服务器)之间狂热地搬运包裹(AI 数据)。传统的运输系统恰似令小哥们以蹬三轮的方式送货,然而 DeepEP 却直接为全员配备了“磁悬浮+量子传送”的套装,实现了稳定且高效的信息传递。
DeepEP的创新性体现在多个维度。
特点一:直接改变运输规则
在 2024 年 8 月 29 日英伟达的电话会议上,黄仁勋专门讲了 NVLink(这是英伟达开发的一种能让 GPU 之间直接互连的技术,双向互传速度能达到 1.8TB/S)对于低延迟、高输出还有大型语言模型可重要啦,觉得它是推动大模型发展的关键技术之一。
但是这个被夸得特别厉害的 NVLink 技术,这次直接被中国团队玩得更厉害了。
DeepEP 厉害的地方就在于对 NVLink 的优化,这就好比在同一个仓库的快递员之间,用磁悬浮轨道运输,速度快得能达到每秒 158 个集装箱(GB/s),差不多能把北京到上海的距离变得跟喝一口水的时间那么短。
还有一个厉害的黑科技就是它包含的 RDMA 技术的低延迟内核,你想想,在不同城市的仓库之间,货物直接“量子传送”,每架飞机(网卡)运输的能力能达到每秒 47 个集装箱,而且还能让飞机一边装货一边飞,计算和通信能一起进行,再也不用停机等着啦。
特点二:智能分拣黑科技:AI版“最强大脑”
P 的“调度 - 组合”系统特别神奇,就好像能未卜先知一样:在训练预填充模式的时候,4096 个数据包能同时在智能传送带上走,自动就能分辨出是同城的还是跨城的;在推理预填充模式的时候,128 个加急包裹能走 VIP 通道,163 微秒就能送达,这可比人类眨眼快 5 倍呢。
同时啊,还采用了动态变轨技术,要是遇到流量洪峰,马上就能切换传输模式,能完美适应不同的场景需求。
特点三:FP8“缩骨术”
普通的货物用标准箱子(FP32/FP16 格式)来运输,但是 DeepEP 能把货物压缩成微型胶囊(FP8 格式),这样一来,同样的卡车就能多装 3 倍的货物。更厉害的是,这些胶囊到了目的地以后会自己变回原来的样子,既省了邮费又节省了时间。
这套系统已经在 DeepSeek 自己家的仓库(H800 GPU 集群)测试过了:同城货运的速度提高了 3 倍,跨城的延迟降低到人类几乎感觉不到的程度,最让人觉得颠覆的是它实现了真正的“无感传输”——就像是快递小哥骑着车的时候顺便往快递柜里塞包裹,整个过程特别顺畅。
现在 DeepSeek 把这张王牌开源了,这就相当于把顺丰的无人分拣系统的图纸公开给大家,原本需要 2000 台 GPU 才能完成的重型任务,现在几百台就能轻松搞定。
在更早的时候,DeepSeek 发布了它“开源周”的第一项成果:FlashMLA(直接翻译过来就是快速多头潜在注意力机制)的代码,这同样是能减少大模型训练过程中成本的关键技术之一。为了缓解产业链上下游的成本方面的烦恼,DeepSeek 正在把自己知道的都拿出来分享。
好多专家都对 DeepEP 的开源给出了很高的评价。清华大学计算机系的长聘教授翟季冬说:“DeepSeek 一直努力挖掘算法、软件和硬件一起创新的潜力,DeepEP 出来以后,给提高 GPU 的利用效率提供了新的技术办法,很有希望让 AI 大模型训练和推理的效率有特别大的提升。”
中存算半导体的董事长陈巍也讲:“DeepEP 解决了 MoE 模型在 GPU 之间数据调度和聚合效率低的问题,它支持的低精度操作和 DeepSeek-V3 技术是一个思路,给大规模分布式 AI 模型训练提供了更有效的通信解决办法。”
这次 DeepSeek 把 DeepEP 开源,对 AI 开源的生态是一个很重要的贡献,打破了技术的限制,让更多的开发者能根据这个进行创新,加快 AI 技术在各个领域的实际应用。
因为 AI 行业对算力的需求一直在增加,DeepEP 能不能像大家想的那样引领行业变化,帮助中国 AI 产业突破算力的限制,在全球的竞争里表现出色,这很值得一直关注。