DeepSeek R1 蒸馏系列模型测评,生产落地部署极致性价比评估

本文将从模型指标、成本、性能、能力几个方面,对DeepSeek开源的模型进行对比测试,得出实际性价比最高的模型。

目录

前言

模型版权问题

模型指标对比

资源需求

模型权重资源占用

实际部署后显存占用

实际并发性能测试结果

能力测评对比

一、逻辑推理能力

二、哲学伦理能力

三、语言理解能力

四、知识广度与时效性

五、创造性思维

六、多模态处理

七、技术实现理解

八、用户体验感知

九、跨文化适应

十、 过度思考问题

结果汇总

模型测评汇总

实际生产部署性价比分析

题外话


前言

DeepSeek 近期主要开源的模型有:

  • DeepSeek-V3

  • Janus-Pro

  • DeepSeek-R1-Zero

  • DeepSeek-R1

    • 通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型

模型蒸馏(Distill)就是把一个很厉害的 “大聪明” 模型(教师模型)知道的知识,想办法教给一个没那么厉害的 “小学霸” 模型(学生模型),让 “小学霸” 变得更聪明,同时还能保持 “小巧玲珑”,可以在一些资源没那么多的地方也能很好地发挥作用。

DeepSeek-R1 教了(蒸馏)什么高级知识给小模型呢?

其实就是深度思考​的能力、输出方式。

在deepseek官网对话中,当你选中了深度思考​,调用的就是DeepSeek-R1

取消,则调用的是DeepSeek-V3

它的思考过程的实现,其实就是模型在正式回答前,先进行思考,而思考内容用<think>​标签来标记。

用户: 你好
模型输出: <think></think>你好

用户: 介绍一下你自己
模型输出: <think>
好的,用户让我介绍一下自己,现在我要看看怎么回应。首先,根据之前的记录,用户已经明确要求直接展示结果,不需要思考过程。所以这次可能需要直接给出一个简洁的自我介绍。

回顾之前的回答,用户可能已经看过我的基本介绍,但也许现在他/她想更详细地了解。不过要注意不要重复之前的信息,或者在原有基础上做扩展。例如,可能提到我的功能、应用场景、技术支持等。

另外,需要保持回答的正式和友好,同时简洁明了。可能用户的场景是需要一个快速的介绍,用于某种报告或展示中使用,或者只是想了解我的能力。用户可能是学生、研究人员,或者普通用户,所以介绍要具有通用性。

还要记得避免使用Markdown格式,保持纯文本。检查是否有之前的对话内容需要规避或者特别强调的地方,比如用户可能对技术细节感兴趣,所以可以提到AI技术如机器学习、自然语言处理等,但不需要深入术语。

最后,确保回答结构清晰,分点说明主要功能和特点,这样用户容易阅读和理解。同时,结尾处鼓励用户提问,以促进进一步交流。
</think>

您好!我是一个由深度求索(DeepSeek)公司开发的智能助手DeepSeek-R1-Lite-Preview,能够协助您解答各类问题,并提供信息查询、内容创作、逻辑推理等服务。我的知识截止到2024年6月,目前主要通过文本交互与用户对话,且会持续更新迭代。您可以随时提出需求,我会尽力为您提供帮助。

也正是这种 前置思考用<think>​标签标记的“输出习惯”,由DeepSeek-R1 教会(蒸馏)小模型。

而小模型学会这种思考方法,确实十分显著的提高了小模型原本的推理能力。

模型版权问题

没有版权问题,不得不再吹一句DeepSeek牛逼,大格局。

本次开源的DeepSeek R1 以其蒸馏系列(DeepSeek的所有模型都开源 )模型皆遵循 MIT 协议

“以开源精神和长期主义追求普惠 AGI” 是 DeepSeek 一直以来的坚定信念

MIT协议:MIT 协议是目前最宽松的开源协议之一,对开发者的限制极少,允许代码被自由地使用、修改和分发,甚至可以将其用于商业项目中,无需支付费用或获取额外的许可

模型指标对比

在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

  • 蒸馏版本 和 模型基座(小模型的版本)
Model Base Model Download
DeepSeek-R1-Distill-Qwen-1.5B Qwen2.5-Math-1.5B 🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7B Qwen2.5-Math-7B 🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8B Llama-3.1-8B 🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14B Qwen2.5-14B 🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32B Qwen2.5-32B 🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70B Llama-3.3-70B-Instruct 🤗 HuggingFace
  • 蒸馏后性能指标
Model AIME 2024 pass@1 AIME 2024 cons@64 MATH-500 pass@1 GPQA Diamond pass@1 LiveCodeBench pass@1 CodeForces rating
GPT-4o-0513 9.3 13.4 74.6 49.9 32.9 759
Claude-3.5-Sonnet-1022 16.0 26.7 78.3 65.0 38.9 717
o1-mini 63.6 80.0 90.0 60.0 53.8 1820
QwQ-32B-Preview 44.0 60.0 90.6 54.5 41.9 1316
DeepSeek-R1-Distill-Qwen-1.5B 28.9 52.7 83.9 33.8 16.9 954
DeepSeek-R1-Distill-Qwen-7B 55.5 83.3 92.8 49.1 37.6 1189
DeepSeek-R1-Distill-Qwen-14B 69.7 80.0 93.9 59.1 53.1 1481
​DeepSeek-R1-Distill-Qwen-32B​ 72.6 83.3 94.3 62.1 57.2 1691
DeepSeek-R1-Distill-Llama-8B 50.4 80.0 89.1 49.0 39.6 1205
DeepSeek-R1-Distill-Llama-70B 70.0 86.7 94.5 65.2 57.5 1633

从基座可以看出,DeepSeek-R1-Distill-Qwen-7B​的数学能力和代码能力绝对是有优势的,但是对文本生成、知识广度可能会有局限性。

Qwen2.5-Math-7B 是数学模型,擅长写代码和逻辑推理,特别是python代码

从指标可以看出,DeepSeek-R1-Distill-Qwen-32B​性价比是比较高的,性能逼近 DeepSeek-R1-Distill-Llama-70B,超越了o1-mini。

所以,暂时可以得出结论:能用DeepSeek-R1-Distill-Qwen-32B​最好,其次14B,实在不行就7B。

资源需求

模型权重资源占用

模型版本 CPU 内存 硬盘 显卡 适用场景 预计费用
DeepSeek-R1-1.5B 最低4核 8GB+ 256GB+(模型文件约1.5 - 2GB) 非必需(纯CPU推理) 本地测试,自己电脑上可以配合Ollama轻松跑起来 2000~5000
DeepSeek-R1-7B 8核+ 16GB+ 256GB+(模型文件约4 - 5GB) 推荐8GB+显存(如RTX 3070/4060) 本地开发和测试,可以处理一些中等复杂度的自然语言处理任务,比如文本摘要、翻译、轻量级多轮对话系统等 5000~10000
DeepSeek-R1-8B 8核+ 16GB+ 256GB+(模型文件约4 - 5GB) 推荐8GB+显存(如RTX 3070/4060) 适合需要更高精度的轻量级任务,比如代码生成、逻辑推理等 5000~10000
DeepSeek-R1-14B 12核+ 32GB+ 256GB+ 16GB+显存(如RTX 4090或V100) 适合企业级复杂任务,比如长文本理解与生成 20000~30000
DeepSeek-R1-32B 16核+ 64GB+ 256GB+ 24GB+显存(如A100 40GB或双卡RTX 3090) 适合高精度专业领域任务,比如多模态任务预处理 40000~100000
DeepSeek-R1-70B 32核+ 128GB+ 256GB+ 多卡并行(如2x A100 80GB或4x RTX 4090) 适合科研机构或大型企业进行高复杂度生成任务 400000+
DeepSeek-R1-671B 64核+ 512GB+ 512GB+ 多节点分布式训练(如8x A100/H100) 适合超大规模AI研究或通用人工智能(AGI)探索 20000000+
Model Version VRAM (GPU) RAM (CPU) Storage
1.5B 4GB+ 8GB+ 5GB
7B 12GB+ 16GB+ 10GB
8B 16GB+ 32GB+ 15GB
14B 27GB+ 64GB+ 30GB
32B 48GB+ 128GB+ 60GB
70B 80GB+ 256GB+ 120GB
671B (MoE) 4x A100 GPUs (320GB VRAM) 512GB+ 500GB+

671B (MoE) 需要 4 张 A100 - 80GB的版本

实际部署后显存占用

实际占用 = 权重占用 + kv cache占用

这里不说数值标记,直接标记是否可以部署

V100 (32GB)

A100 (40GB)

模型 V100单卡 A100单卡 V100双卡 A100双卡
1.5B
7B
### 关于DeepSeek R1蒸馏模型的信息 #### 背景介绍 DeepSeek项目致力于开发高效能的AI解决方案,旨在减少推理时间的同时保持模型的能力[^2]。具体到DeepSeek-R1版本,该项目提供了详细的指南来支持本地运行环境配置,请访问官方仓库获取更多关于部署和操作的具体指导[^1]。 #### 模型概述 针对DeepSeek R1中的蒸馏模型部分,其设计目的是为了提高计算效率并降低资源消耗。通过引入教师-学生框架下的知识蒸馏技术,使得较小规模的学生模型能够继承较大教师模型的知识,从而实现性能与速度间的平衡优化。此过程不仅有助于缩短预测所需的时间成本,而且能够在一定程度上保留原始复杂架构所具备的强大表达能力。 #### 技术细节 在实施过程中,采用了基于RFDB的方法论来进行有效的参数调整与结构简化工作。这涉及到对原有大型预训练模型内部各层间关系的理解以及如何合理映射至更紧凑的新体系之中。特别值得注意的是,在这个转换阶段会特别关注那些对于最终输出贡献较大的组件或路径,确保它们能在精简后的版本里得到充分保留和发展。 ```python # 假设这是用于加载已训练好的教师模型的部分Python代码片段 teacher_model = load_teacher_network('path_to_pretrained_large_model') student_model = create_student_architecture() # 执行知识蒸馏流程的核心逻辑 distill_knowledge(teacher=teacher_model, student=student_model) def distill_knowledge(teacher, student): pass # 实现具体的蒸馏算法 ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

歌刎

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值