DeepSeek-R1模型性能对比: 32B vs 70B vs R1

最新推荐文章于 2025-03-13 10:17:40 发布

AGI大模型老王

最新推荐文章于 2025-03-13 10:17:40 发布

阅读量1.9k

点赞数 13

文章标签：人工智能 DeepSeek 大模型教程大模型 AI大模型大模型学习 DeepSeek R1

本文链接：https://blog.csdn.net/2401_85390073/article/details/146064639

版权

引言

DeepSeek是梁文峰于 2023 年创立的一家中国人工智能公司，它发布的 DeepSeek-R1 模型在人工智能领域取得了长足进步。这个开源语言模型因其在推理任务中的表现而备受关注，可与 OpenAI 的 o1 等模型相媲美。值得注意的是，DeepSeek 只用了通常所需的一小部分资源就实现了这一目标，彰显了我国在人工智能技术方面的飞速进步。

在探索 DeepSeek 产品的过程中，本文评估了他们的两个型号：DeepSeek-R1-Distill-Qwen-32B和DeepSeek-R1-Distill-Llama-70B。这两个型号都可以通过此链接从 Ollama 官方网站下载。例如，如果你想下载 32B 型号，它的大小为 20GB，你只需按照本页面的说明进行操作即可。

**硬件配置
**

本文使用 WSL2 在 i7-14700KF 3.4GHz 处理器、32GB 内存和 NVIDIA RTX 4090 GPU 上运行了这些模型。

32B 型号无需对系统进行任何修改即可顺利运行。
70B 模型需要将内存设置为 24GB，在执行前使用 psutil 监控内存使用情况。

受 Matthew Berman 测试的启发，我运行了相同的测试问题集来评估这些模型，另外还增加了一些我自己的问题。虽然我在这里包含了 R1 模型的结果，但它们并不是我的本地机器取得的。

单词strawberry中有几个r

该问题的结果如下：

32B 模型：✅正确，与 R1 的回答相似。
70B 模型：✅ 正确，但不够详细。
DeepSeek-R1: ✅ 正确，理由详细。

用 Python 编写游戏贪吃蛇

该问题的结果如下：

32B 模型：❌失败。蛇不吃果子。
70B 模型：✅ 通过。蛇吃了果子，长大了，分数也正确更新了。
DeepSeek-R1: ✅ 通过，与 70B 相似。

用 Python 编写俄罗斯方块游戏

该问题的答案如下：

32B 模型：❌失败。程序块保持静态。
70B 模型：❌失败。物体块下沉，但不能正常沉降。
DeepSeek-R1: ✅ 绝对通过。经网上博主的测试表明，R1 生成的俄罗斯方块代码可以正常工作。

信封尺寸验证

邮局对可邮寄信封的尺寸有限制：最小尺寸：14 厘米 × 9 厘米。最大尺寸：32.4 厘米 × 22.9 厘米。您有一个尺寸为 200 毫米 × 275 毫米的信封。给定的信封是否在可接受的尺寸范围内？

该问题的答案如下：

32B 模型：❌不正确。回答 “否”。
70B 模型：✅正确。回答 “是”。并正确进行了转换，并说明了理由。
DeepSeek-R1: ✅ 正确。回答’是’。转换正确，并说明了理由。

你对这一提示的回答有多少个字？

该问题的对比如下：

32B 模型：✅通过。推理与 R1 相似。
70B 模型：✅ 通过。简明但正确的答案。
DeepSeek-R1: ✅ 通过。提供了详细的推理。

逻辑推理测试

一个房间里有三个杀手。有人进入房间，杀死了其中一人。没有人离开房间。房间里还剩下几个杀手？

该问题的对比如下：

32B 模型：✅正确，推理与 R1 相似。
70B 模型：✅推理正确，但不太详细。
DeepSeek-R1: ✅ 正确、高度详细的推理。

逻辑推理测试

提示词：在玻璃杯中放入一颗弹珠，然后把玻璃杯倒过来放在桌子上。然后把玻璃杯拿起来放进微波炉。弹珠在哪里？

该问题的对比如下：

32B 模式：✅通过，理由与 R1 类似。
70B 模型：✅通过，理由充分。
DeepSeek-R1: ✅ 通过，理由详尽。

逻辑推理测试

提示词：哪个数字更大：9.11 还是 9.9？

该问题的对比如下：

32B 模型：✅通过，详细推理。
70B 模型：通过，正确但简洁。
DeepSeek-R1: ✅ 通过，理由详尽。

结论

对以上测试进行总结，结论如下：

DeepSeek-R1（原版）在俄罗斯方块、贪吃蛇等编码任务和推理方面的表现明显更好。
32B 模型倾向于提供更详细的推理（如 R1 原版），但在功能编码任务上却失败了。更详细的推理能力可能来自 Qwen，它是以 Qwen 为基础的一个模型（而 70B 是以 Llama 为基础的）。
70B 模型在编码任务和事实正确性方面表现更好（与 32B 相比），但有时在推理方面缺乏深度。难能可贵的是，它得到的"√"几乎和 R1 模型一样多（它只在俄罗斯方块问题上失败了）。但唯一的缺点是反应速度慢。

在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述