港大&NV&MIT开源Fast-dLLM：无需重新训练模型，直接提升扩散语言模型的推理效率

程序猿李巡天

于 2025-06-05 19:11:40 发布

阅读量892

点赞数 27

文章标签：语言模型人工智能自然语言处理 gpu算力 batch prompt 知识图谱

本文链接：https://blog.csdn.net/m0_59235945/article/details/148457199

版权

最近的Gemini Diffusion语言模型展现了惊人的throughput和效果，但是开源的扩散语言模型由于缺少kv cache以及在并行解码的时候性能严重下降等问题速度严重受影响。

Left: Standard decoding (LLaDA). Right: Confidence-aware parallel decoding.

我们基于这两点出发，提出了Fast-dLLM，并设计相应的解决策略加速当前的扩散语言模型。

核心设计

分块KV缓存机制

针对双向扩散模型设计，通过缓存前缀和后缀token的注意力激活值（DualCache），实现90%+激活重用，大幅减少冗余计算。相邻步骤的KV激活余弦相似度接近1，验证了缓存复用的高效性

置信度感知并行解码

动态筛选置信度超过阈值（如≥0.9）的token批量解码，既规避了条件独立假设导致的依赖破坏，又通过理论证明当阈值和解码的token数满足条件时并行解码与顺序解码结果一致，保证生成质量，实现13.3倍速度提升

实测效果

速度：在LLaDA模型上，1024token长文本生成实现27.6倍端到端加速，单步延迟从0.26秒降至0.09秒
精度：GSM8K等基准测试中，准确率损失控制在2%以内，如LLaDA+Fast-dLLM在5-shot场景下仍保持78.5%准确率
兼容性：支持LLaDA、Dream等主流扩散模型，覆盖数学推理（MATH）、代码生成（HumanEval）等多场景

应用价值

无需重新训练模型，直接提升扩散LLM的推理效率，缩短长文本生成耗时，为实际部署提供可行性。例如，8-shot提示的1024token生成任务，从266秒压缩至12秒，效率提升显著。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述