[笔记.AI]deepseek-r1的不同版本（满血版、蒸馏版、量化）

俊哥V

已于 2025-02-13 20:27:44 修改

阅读量8.2k

点赞数 4

分类专栏： AI 技术理解文章标签： AI deepseek

于 2025-02-10 20:20:58 首次发布

本文链接：https://blog.csdn.net/debug_fan/article/details/145557345

版权

AI 同时被 2 个专栏收录

42 篇文章

订阅专栏

技术理解

28 篇文章

订阅专栏

满血版：是原始的高性能模型；蒸馏版（Distill）：是指将大型模型（教师模型）的知识转移到较小的模型（学生模型）中，以保持性能的同时减少计算资源的需求； \|-使用DeepSeek-R1完整版作为教师模型，迁移到Qwen/Llama等开源架构（1.5B-70B）； \|-Qwen/Llama等架构仅作为学生模型的部署载体，而非直接使用这些模型作为教师；量化技术（FP8/INT8）：是通过降低模型参数的精度来减少计算资源消耗。
对比维度	满血版	蒸馏版	量化技术
核心技术	强化学习驱动推理、长链推理(CoT) ,	模型蒸馏技术迁移推理能力,支持多尺寸迁移（1.5B-70B）	采用FP8/INT8量化技术，保持性能前提下降低显存占用,
模型参数	6710亿	提供1.5B/7B/8B/14B/32B/70B等多尺寸	基于蒸馏版或满血版进行量化，参数保持原始规模
核心性能	AIME2024(79.8%)/MATH-500(97.3%)/MMLU(90.8%)，超越OpenAI o1	32B蒸馏版AIME2024(72.6%)，超越Qwen2.5-32B(55.5%)	FP8量化后显存需求降低50%，推理速度提升40%,
计算资源需求	需多GPU服务器部署	7B版本可在16GB显存显卡运行	1.5B量化版可运行在普通消费级显卡
开源支持	MIT协议开源	开源蒸馏后的小模型	提供量化工具链（LMDeploy/SGLang）
典型应用场景	适用于需要强大计算能力的场景，典型如：企业级复杂推理（金融风控/基因分析）	适合资源有限的场景，典型如：中小企业本地部署（客服系统/教育辅导）	兼顾性能与成本，典型如：移动端/嵌入式设备（智能硬件/机器人）
独特优势	完整思维链可视化	支持32B模型蒸馏至1.5B仍保持70%性能	FP8量化精度损失<1%
使用限制	通常需要专业IT团队维护	70B版本仍需高端显卡	超长上下文支持较弱

其中，DeepSeek-R1系列蒸馏模型是通过“知识蒸馏（Knowledge Distillation）”技术，将R1大模型（如671B参数版本）的推理能力迁移到不同基座模型（Qwen-2.5/Llama系列）上的产物。以下是具体对应关系：

蒸馏模型参数	基座模型来源
1.5B	Qwen2.5-1.5B
7B	Qwen2.5-7B
8B	Llama3.1-8B-Base
14B	Qwen2.5-14B
32B	Qwen2.5-32B
70B	Llama3.3-70B-Instruct