DeepSeek R1 蒸馏系列模型测评，生产落地部署极致性价比评估

用户: 你好
模型输出: <think></think>你好

用户: 介绍一下你自己
模型输出: <think>
好的，用户让我介绍一下自己，现在我要看看怎么回应。首先，根据之前的记录，用户已经明确要求直接展示结果，不需要思考过程。所以这次可能需要直接给出一个简洁的自我介绍。

回顾之前的回答，用户可能已经看过我的基本介绍，但也许现在他/她想更详细地了解。不过要注意不要重复之前的信息，或者在原有基础上做扩展。例如，可能提到我的功能、应用场景、技术支持等。

另外，需要保持回答的正式和友好，同时简洁明了。可能用户的场景是需要一个快速的介绍，用于某种报告或展示中使用，或者只是想了解我的能力。用户可能是学生、研究人员，或者普通用户，所以介绍要具有通用性。

还要记得避免使用Markdown格式，保持纯文本。检查是否有之前的对话内容需要规避或者特别强调的地方，比如用户可能对技术细节感兴趣，所以可以提到AI技术如机器学习、自然语言处理等，但不需要深入术语。

最后，确保回答结构清晰，分点说明主要功能和特点，这样用户容易阅读和理解。同时，结尾处鼓励用户提问，以促进进一步交流。
</think>

您好！我是一个由深度求索（DeepSeek）公司开发的智能助手DeepSeek-R1-Lite-Preview，能够协助您解答各类问题，并提供信息查询、内容创作、逻辑推理等服务。我的知识截止到2024年6月，目前主要通过文本交互与用户对话，且会持续更新迭代。您可以随时提出需求，我会尽力为您提供帮助。

也正是这种前置思考用<think>标签标记的“输出习惯”，由DeepSeek-R1 教会（蒸馏）小模型。

而小模型学会这种思考方法，确实十分显著的提高了小模型原本的推理能力。

模型版权问题

没有版权问题，不得不再吹一句DeepSeek牛逼，大格局。

本次开源的DeepSeek R1 以其蒸馏系列（DeepSeek的所有模型都开源）模型皆遵循 MIT 协议

“以开源精神和长期主义追求普惠 AGI” 是 DeepSeek 一直以来的坚定信念

MIT协议：MIT 协议是目前最宽松的开源协议之一，对开发者的限制极少，允许代码被自由地使用、修改和分发，甚至可以将其用于商业项目中，无需支付费用或获取额外的许可

模型指标对比

在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时，通过 DeepSeek-R1 的输出，蒸馏了 6 个小模型开源给社区，其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

蒸馏版本和模型基座（小模型的版本）

Model	Base Model	Download
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	🤗 HuggingFace

蒸馏后性能指标

Model	AIME 2024 pass@1	AIME 2024 cons@64	MATH-500 pass@1	GPQA Diamond pass@1	LiveCodeBench pass@1	CodeForces rating
GPT-4o-0513	9.3	13.4	74.6	49.9	32.9	759
Claude-3.5-Sonnet-1022	16.0	26.7	78.3	65.0	38.9	717
o1-mini	63.6	80.0	90.0	60.0	53.8	1820
QwQ-32B-Preview	44.0	60.0	90.6	54.5	41.9	1316
DeepSeek-R1-Distill-Qwen-1.5B	28.9	52.7	83.9	33.8	16.9	954
DeepSeek-R1-Distill-Qwen-7B	55.5	83.3	92.8	49.1	37.6	1189
DeepSeek-R1-Distill-Qwen-14B	69.7	80.0	93.9	59.1	53.1	1481
DeepSeek-R1-Distill-Qwen-32B	72.6	83.3	94.3	62.1	57.2	1691
DeepSeek-R1-Distill-Llama-8B	50.4	80.0	89.1	49.0	39.6	1205
DeepSeek-R1-Distill-Llama-70B	70.0	86.7	94.5	65.2	57.5	1633

从基座可以看出，DeepSeek-R1-Distill-Qwen-7B的数学能力和代码能力绝对是有优势的，但是对文本生成、知识广度可能会有局限性。

Qwen2.5-Math-7B 是数学模型,擅长写代码和逻辑推理，特别是python代码

从指标可以看出，DeepSeek-R1-Distill-Qwen-32B性价比是比较高的，性能逼近 DeepSeek-R1-Distill-Llama-70B，超越了o1-mini。

所以，暂时可以得出结论：能用DeepSeek-R1-Distill-Qwen-32B最好，其次14B，实在不行就7B。

资源需求

模型权重资源占用

模型版本	CPU	内存	硬盘	显卡	适用场景	预计费用
DeepSeek-R1-1.5B	最低4核	8GB+	256GB+（模型文件约1.5 - 2GB）	非必需（纯CPU推理）	本地测试，自己电脑上可以配合Ollama轻松跑起来	2000～5000
DeepSeek-R1-7B	8核+	16GB+	256GB+（模型文件约4 - 5GB）	推荐8GB+显存（如RTX 3070/4060）	本地开发和测试，可以处理一些中等复杂度的自然语言处理任务，比如文本摘要、翻译、轻量级多轮对话系统等	5000～10000
DeepSeek-R1-8B	8核+	16GB+	256GB+（模型文件约4 - 5GB）	推荐8GB+显存（如RTX 3070/4060）	适合需要更高精度的轻量级任务，比如代码生成、逻辑推理等	5000～10000
DeepSeek-R1-14B	12核+	32GB+	256GB+	16GB+显存（如RTX 4090或V100）	适合企业级复杂任务，比如长文本理解与生成	20000～30000
DeepSeek-R1-32B	16核+	64GB+	256GB+	24GB+显存（如A100 40GB或双卡RTX 3090）	适合高精度专业领域任务，比如多模态任务预处理	40000～100000
DeepSeek-R1-70B	32核+	128GB+	256GB+	多卡并行（如2x A100 80GB或4x RTX 4090）	适合科研机构或大型企业进行高复杂度生成任务	400000+
DeepSeek-R1-671B	64核+	512GB+	512GB+	多节点分布式训练（如8x A100/H100）	适合超大规模AI研究或通用人工智能（AGI）探索	20000000+