DeepSeek 启动开源周，首个开源代码库为Flash MLA，解码性能飙升至3000GB/s

LinkTime_Cloud

于 2025-02-24 10:57:08 发布

阅读量1.1k

点赞数 21

文章标签：开源

本文链接：https://blog.csdn.net/linktime_cloud/article/details/145842081

版权

2025年2月24日，DeepSeek宣布启动“开源周”，并率先发布首个开源项目Flash MLA。这一针对英伟达Hopper架构GPU优化的高效解码内核，不仅将AI推理的内存带宽推至3000 GB/s的惊人水平，更以580 TFLOPS的计算性能刷新行业标准。

Flash MLA专为英伟达Hopper架构GPU设计，尤其适配H800型号。其核心目标是通过优化多层注意力机制（Multi-Layer Attention, MLA），加速大语言模型（LLM）的解码过程。与传统的注意力机制相比，Flash MLA通过以下技术实现性能跃升：

变长序列处理：针对实际应用中输入序列长度不固定的场景，Flash MLA采用动态内存分配策略，减少因填充（padding）导致的计算资源浪费。
分页键值缓存（Paged KV Cache）：以64为块大小管理内存，显著提升缓存利用率，避免内存碎片化问题，从而在内存受限场景下实现高达3000 GB/s的带宽效率。

Flash MLA支持BF16（Bfloat16）浮点格式，在保证模型精度的同时，大幅降低内存占用与计算延迟。这一设计使得其在处理大规模参数模型（如千亿级参数的LLM）时，既能维持推理准确性，又可适应高吞吐量的实时生成任务（如聊天机器人、文本续写等）。

根据官方测试数据，在H800 SXM5 GPU上，Flash MLA在两种典型场景中表现卓越：

DeepSeek此次“开源周”计划从2月24日起连续5天发布5个代码库，覆盖AI模型训练、推理加速、多模态融合等关键领域。这一举措以完全透明的方式向全球开发者社区开放其技术积累，旨在加速AI技术的普惠化进程。

中信证券研报指出，Flash MLA的开源将催化“AI+”主题，推动以下领域的变革：

从“使用者”到“贡献者”，中国企业在全球开源社区的活跃度持续提升。Flash MLA的发布不仅展现了DeepSeek的技术实力，也体现了中国科技公司推动技术民主化的决心。正如报道所言：“中国已从开源生态的获益者转变为贡献者”。

Flash MLA要求运行环境为CUDA 12.3+及PyTorch 2.0+，并需搭载Hopper架构GPU（如H800）。开发者可通过以下步骤快速部署：

python setup.py install  
python tests/test_flash_mla.py  # 运行基准测试

官方提供的测试脚本可直观展示性能提升效果，例如在变长序列场景中，吞吐量提升可达2-3倍。

DeepSeek预告后续将开源更多工具库，社区猜测可能涉及分布式训练框架、低精度量化方案或多模态对齐技术。首日项目引发的热议中，网友甚至推测第五日或公布AGI相关突破，尽管官方尚未证实这一猜测。

开源周不仅是技术展示，更是全球开发者协作的“邀请函”。未来，DeepSeek或借鉴Linux基金会模式，构建以AI基础设施为核心的开源联盟，推动技术标准统一化。

👇点击阅读原文，获取开源地址

🚀帮我们点亮一颗🌟，愿您的开发之路星光璀璨