本文将从模型指标、成本、性能、能力几个方面,对DeepSeek开源的模型进行对比测试,得出实际性价比最高的模型。
目录
前言
DeepSeek 近期主要开源的模型有:
-
DeepSeek-V3
-
DeepSeek-R1-Zero
-
DeepSeek-R1
- 通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型
模型蒸馏(Distill)就是把一个很厉害的 “大聪明” 模型(教师模型)知道的知识,想办法教给一个没那么厉害的 “小学霸” 模型(学生模型),让 “小学霸” 变得更聪明,同时还能保持 “小巧玲珑”,可以在一些资源没那么多的地方也能很好地发挥作用。
DeepSeek-R1 教了(蒸馏)什么高级知识给小模型呢?
其实就是深度思考的能力、输出方式。
在deepseek官网对话中,当你选中了深度思考,调用的就是DeepSeek-R1
取消,则调用的是DeepSeek-V3

它的思考过程的实现,其实就是模型在正式回答前,先进行思考,而思考内容用<think>标签来标记。
用户: 你好
模型输出: <think></think>你好
用户: 介绍一下你自己
模型输出: <think>
好的,用户让我介绍一下自己,现在我要看看怎么回应。首先,根据之前的记录,用户已经明确要求直接展示结果,不需要思考过程。所以这次可能需要直接给出一个简洁的自我介绍。
回顾之前的回答,用户可能已经看过我的基本介绍,但也许现在他/她想更详细地了解。不过要注意不要重复之前的信息,或者在原有基础上做扩展。例如,可能提到我的功能、应用场景、技术支持等。
另外,需要保持回答的正式和友好,同时简洁明了。可能用户的场景是需要一个快速的介绍,用于某种报告或展示中使用,或者只是想了解我的能力。用户可能是学生、研究人员,或者普通用户,所以介绍要具有通用性。
还要记得避免使用Markdown格式,保持纯文本。检查是否有之前的对话内容需要规避或者特别强调的地方,比如用户可能对技术细节感兴趣,所以可以提到AI技术如机器学习、自然语言处理等,但不需要深入术语。
最后,确保回答结构清晰,分点说明主要功能和特点,这样用户容易阅读和理解。同时,结尾处鼓励用户提问,以促进进一步交流。
</think>
您好!我是一个由深度求索(DeepSeek)公司开发的智能助手DeepSeek-R1-Lite-Preview,能够协助您解答各类问题,并提供信息查询、内容创作、逻辑推理等服务。我的知识截止到2024年6月,目前主要通过文本交互与用户对话,且会持续更新迭代。您可以随时提出需求,我会尽力为您提供帮助。
也正是这种 前置思考用<think>标签标记的“输出习惯”,由DeepSeek-R1 教会(蒸馏)小模型。
而小模型学会这种思考方法,确实十分显著的提高了小模型原本的推理能力。

模型版权问题
没有版权问题,不得不再吹一句DeepSeek牛逼,大格局。
本次开源的DeepSeek R1 以其蒸馏系列(DeepSeek的所有模型都开源 )模型皆遵循 MIT 协议
“以开源精神和长期主义追求普惠 AGI” 是 DeepSeek 一直以来的坚定信念
MIT协议:MIT 协议是目前最宽松的开源协议之一,对开发者的限制极少,允许代码被自由地使用、修改和分发,甚至可以将其用于商业项目中,无需支付费用或获取额外的许可
模型指标对比
在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。
- 蒸馏版本 和 模型基座(小模型的版本)
| Model | Base Model | Download |
|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | 🤗 HuggingFace |
| DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | 🤗 HuggingFace |
| DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | 🤗 HuggingFace |
| DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | 🤗 HuggingFace |
| DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | 🤗 HuggingFace |
| DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | 🤗 HuggingFace |
- 蒸馏后性能指标
| Model | AIME 2024 pass@1 | AIME 2024 cons@64 | MATH-500 pass@1 | GPQA Diamond pass@1 | LiveCodeBench pass@1 | CodeForces rating |
|---|---|---|---|---|---|---|
| GPT-4o-0513 | 9.3 | 13.4 | 74.6 | 49.9 | 32.9 | 759 |
| Claude-3.5-Sonnet-1022 | 16.0 | 26.7 | 78.3 | 65.0 | 38.9 | 717 |
| o1-mini | 63.6 | 80.0 | 90.0 | 60.0 | 53.8 | 1820 |
| QwQ-32B-Preview | 44.0 | 60.0 | 90.6 | 54.5 | 41.9 | 1316 |
| DeepSeek-R1-Distill-Qwen-1.5B | 28.9 | 52.7 | 83.9 | 33.8 | 16.9 | 954 |
| DeepSeek-R1-Distill-Qwen-7B | 55.5 | 83.3 | 92.8 | 49.1 | 37.6 | 1189 |
| DeepSeek-R1-Distill-Qwen-14B | 69.7 | 80.0 | 93.9 | 59.1 | 53.1 | 1481 |
| DeepSeek-R1-Distill-Qwen-32B | 72.6 | 83.3 | 94.3 | 62.1 | 57.2 | 1691 |
| DeepSeek-R1-Distill-Llama-8B | 50.4 | 80.0 | 89.1 | 49.0 | 39.6 | 1205 |
| DeepSeek-R1-Distill-Llama-70B | 70.0 | 86.7 | 94.5 | 65.2 | 57.5 | 1633 |
从基座可以看出,DeepSeek-R1-Distill-Qwen-7B的数学能力和代码能力绝对是有优势的,但是对文本生成、知识广度可能会有局限性。
Qwen2.5-Math-7B 是数学模型,擅长写代码和逻辑推理,特别是python代码
从指标可以看出,DeepSeek-R1-Distill-Qwen-32B性价比是比较高的,性能逼近 DeepSeek-R1-Distill-Llama-70B,超越了o1-mini。
所以,暂时可以得出结论:能用DeepSeek-R1-Distill-Qwen-32B最好,其次14B,实在不行就7B。
资源需求
模型权重资源占用
| 模型版本 | CPU | 内存 | 硬盘 | 显卡 | 适用场景 | 预计费用 |
|---|---|---|---|---|---|---|
| DeepSeek-R1-1.5B | 最低4核 | 8GB+ | 256GB+(模型文件约1.5 - 2GB) | 非必需(纯CPU推理) | 本地测试,自己电脑上可以配合Ollama轻松跑起来 | 2000~5000 |
| DeepSeek-R1-7B | 8核+ | 16GB+ | 256GB+(模型文件约4 - 5GB) | 推荐8GB+显存(如RTX 3070/4060) | 本地开发和测试,可以处理一些中等复杂度的自然语言处理任务,比如文本摘要、翻译、轻量级多轮对话系统等 | 5000~10000 |
| DeepSeek-R1-8B | 8核+ | 16GB+ | 256GB+(模型文件约4 - 5GB) | 推荐8GB+显存(如RTX 3070/4060) | 适合需要更高精度的轻量级任务,比如代码生成、逻辑推理等 | 5000~10000 |
| DeepSeek-R1-14B | 12核+ | 32GB+ | 256GB+ | 16GB+显存(如RTX 4090或V100) | 适合企业级复杂任务,比如长文本理解与生成 | 20000~30000 |
| DeepSeek-R1-32B | 16核+ | 64GB+ | 256GB+ | 24GB+显存(如A100 40GB或双卡RTX 3090) | 适合高精度专业领域任务,比如多模态任务预处理 | 40000~100000 |
| DeepSeek-R1-70B | 32核+ | 128GB+ | 256GB+ | 多卡并行(如2x A100 80GB或4x RTX 4090) | 适合科研机构或大型企业进行高复杂度生成任务 | 400000+ |
| DeepSeek-R1-671B | 64核+ | 512GB+ | 512GB+ | 多节点分布式训练(如8x A100/H100) | 适合超大规模AI研究或通用人工智能(AGI)探索 | 20000000+ |
| Model Version | VRAM (GPU) | RAM (CPU) | Storage |
|---|---|---|---|
| 1.5B | 4GB+ | 8GB+ | 5GB |
| 7B | 12GB+ | 16GB+ | 10GB |
| 8B | 16GB+ | 32GB+ | 15GB |
| 14B | 27GB+ | 64GB+ | 30GB |
| 32B | 48GB+ | 128GB+ | 60GB |
| 70B | 80GB+ | 256GB+ | 120GB |
| 671B (MoE) | 4x A100 GPUs (320GB VRAM) | 512GB+ | 500GB+ |
671B (MoE) 需要 4 张 A100 - 80GB的版本
实际部署后显存占用
实际占用 = 权重占用 + kv cache占用
这里不说数值标记,直接标记是否可以部署
V100 (32GB)
A100 (40GB)
| 模型 | V100单卡 | A100单卡 | V100双卡 | A100双卡 |
|---|---|---|---|---|
| 1.5B | ✅ | ✅ | ✅ | ✅ |
| 7B | ✅ | ✅ | ✅ | ✅ |

最低0.47元/天 解锁文章
9万+

被折叠的 条评论
为什么被折叠?



