前言
在《深入理解 DeepSeek 与企业实践(一):蒸馏、部署与评测》文章中,我们详细介绍了深度模型的蒸馏、量化技术,以及 7B 模型的部署基础,通常单张 GPU 显存即可满足7B模型完整参数的运行需求。然而,当模型的参数量增长至 32B (320亿) 级别时,单卡显存往往难以支撑其完整运行。这时,我们需要引入多卡并行推理的概念,同时考虑服务器能否支持多卡的硬件架构等问题。
本篇文章将以部署 DeepSeek-Distilled-Qwen-32B 为例,深入探讨多卡并行的原理、服务器多卡硬件部署的注意事项。此外,我们还将对 32B 模型的运行性能、推理能力进行评估,对该模型适合的场景进行分析和建议。
本文目录
一、32B 模型部署所需显存评估
二、多卡推理的原理解析
三、服务器硬件部署与 GPU 配置
四、在 AIOS 智塔上一键部署 DeepSeek-Distilled-Qwen-32B
五、能力评测 : MMLU、HumanEval 等基准测试
六、32B 模型的应用场景与展望
七、展望:更大参数模型的部署策略
一、32B 模型部署所需显存评估
在部署 32B 模型时,不同的精度、上下文长度和 batch size 对显存和算力的需求有着显著影响。其核心影响因素我们在前文有过介绍,这里不再重复介绍而直接给出评估的值:
考虑到现在各种量化方法的复杂性(例如数据打包、FP8 格式量化等等),写 Int8、Int4 已经不太准确,所以在这里简单用 8 位量化、4 位量化 来估计。
此外可能还会因为不同层的量化策略、数据结构的精度、是否开启 KV Cache 量化,或者使用不同的推理框架也可能导致数据存在出入。