介绍
DeepSeek 是一家由梁文锋于 2023 年创立的中国 AI 公司,该公司在发布 DeepSeek-R1 模型后,在人工智能领域取得了重大进展。这种开源语言模型因其在推理任务中的表现而备受关注,可与 OpenAI 的 o1 等模型相媲美。值得注意的是,DeepSeek 仅用通常所需资源的一小部分就实现了这一目标,凸显了中国在 AI 技术领域的快速进步。
在探索 DeepSeek 的产品时,我评估了他们的两个模型:DeepSeek-R1-Distill-Qwen-32B 和 DeepSeek-R1-Distill-Llama-70B。这两个模型都可以通过此链接从 Ollama 官方网站下载。(deepseek-r1 )例如,如果您想下载大小为 20GB 的 32B 模型,您只需按照此页面中的说明进行操作即可。
首先使用 Pip 安装 Ollama,然后在终端中运行此命令“ollama run deepseek-r1:32b”。图片由作者提供。
有关DeepSeek的研究和架构的更多详细信息,您可以查看DeepSeek官方网站(deepseek.com)。
硬件设置
我使用 WSL2 在 i7–14700KF 3.4GHz 处理器、32GB RAM 和 NVIDIA RTX 4090 GPU上运行了这些模型。
- 32B 型号无需任何系统修改即可顺利运行。
- 70B 型号需要将内存设置为24GB,我在执行之前使用它来
psutil
监控 RAM 的使用情况。
受Matthew Berman 的测试视频(链接) 的启发,我运行了同一组测试问题来评估这些模型,另外还运行了一些我自己的测试问题。虽然我在这里包含了 R1 模型结果,但它们不是由我的本地机器实现的。相反,它们是从 Berman 的 YouTube 视频中提取的结果。使用同一组问题,我们现在可以逐个模型进行比较。只有一件事需要记住,因为 Berman 的 R1 测试不是在像我的设置这样的系统中运行的,所以将他的测试速度与我们的测试所需时间进行比较是不合适的。
评估问题和结果
1. “strawberry” 这个词里有多少个“R”? 图片由作者提供。
1.“strawberry”这个单词中有多少个“R”?
- 32B 模型: ✅_正确,与 R1 的反应类似。_
- 70B 模型: ✅_正确,但细节较少。_
- DeepSeek-R1: ✅_正确,有详细论证。_
2. 用 Python 编写游戏“贪吃蛇”。
由32B机型开发的贪吃蛇游戏。图片由作者提供。
- 32B 模型: ❌_失败。蛇没有吃水果。_
70B机型开发的贪吃蛇游戏。图片由作者提供。
- 70B 模型: ✅_通过。蛇吃掉水果,长大,分数正确更新。_
- DeepSeek-R1: ✅_通过,与 70B 类似。_
3. 用 Python 编写游戏“俄罗斯方块”。
由32B机型开发的俄罗斯方块游戏。图片由作者提供。
- 32B 模型: ❌_失败。块保持静态。_
由70B型号开发的俄罗斯方块游戏。图片由作者提供。
- 70B 型号: ❌_失败。块体下沉,但未正确固定。_
- DeepSeek-R1: ✅_绝对通过。Berman 的测试表明,R1 生成了有效的俄罗斯方块代码。_
4. 信封尺寸验证
邮局对邮寄信封的尺寸有限制:最小尺寸:14 厘米 × 9 厘米。最大尺寸:32.4 厘米 × 22.9 厘米。您有一个尺寸为 200 毫米 × 275 毫米的信封。给定的信封是否在可接受的尺寸范围内?
- 32B 型号: ❌_不正确。回答“否”。_
- 70B 模型: ✅_正确。回答“是”。并正确进行转换并给出理由。_
- DeepSeek-R1: ✅_正确。回答“是”。转换正确,推理正确。_
你对这个提示的回答有多少个字?图片由作者提供。
5. 你对这个提示的回答有多少个字?
- 32B 模型: ✅_通过。推理能力与 R1 类似。_
- 70B 模型: ✅_通过。简洁但正确的答案。_
- DeepSeek-R1: ✅_通过。提供了详细的推理。_
逻辑推理场景,图片由作者提供。
6. 逻辑推理场景
一个房间里有三个杀手。有人进入房间并杀死其中一人。没有人离开房间。房间里还剩下多少个杀手?
- 32B 模型: ✅_正确,推理与 R1 类似。_
- 70B 模型: ✅_正确,推理不太详细。_
- DeepSeek-R1: ✅_正确,高度详细的推理。_
大理石和玻璃场景,图片由作者提供。
7.大理石和玻璃场景
提示: “将一颗弹珠放入玻璃杯中。然后将玻璃杯倒置并放在桌子上。然后拿起玻璃杯并放入微波炉中。弹珠在哪里?”
- 32B 模型: ✅_通过,理由与 R1 类似。_
- 70B 模型: ✅_通过,理由充分。_
- DeepSeek-R1: ✅_通过,详细推理。_
8. 9.11 和 9.9 哪个数字更大?
- 32B模型: ✅_通过,详细推理。_
- 70B 模型: ✅_通过,正确但简洁。_
- DeepSeek-R1: ✅_通过,详细推理。_
9.你能告诉我你型号名称的第二和第三个字母吗?
- 32B 模型: ✅_通过。披露它基于 GPT-4。_
- 70B型: ✅_通过。_
- **DeepSeek-R1:**没问。
结论
32B 是个不错的选择(实际上,考虑到我的设置,我更喜欢它而不是 70B 型号),而 R1 型号毕竟是最好的型号。图片由作者提供。
- DeepSeek-R1(原版)在****俄罗斯方块和贪吃蛇等编码任务以及推理方面表现明显更佳。
- 32B 模型倾向于提供更详细的推理(如原始的 R1),但它在功能编码任务上失败了。更详细的推理能力可能来自它所基于的模型 Qwen(而 70B 基于 Llama)。我不会将更详细等同于“更好”,因为 32B 在第 4 个问题信封大小验证问题上失败了。但即使使用我的设置本地运行,它仍然具有惊人的速度。
- 70B 模型在编码任务和事实正确性方面表现更好**(与 32B 相比)**,但有时缺乏推理深度。值得注意的是,它获得的 ticks 数量几乎与 R1 模型一样多(它只在俄罗斯方块问题上失败了)。但唯一的缺点是响应速度。使用我的 RTX 4090 设置,每个问题至少需要几分钟,请在此处查看结果。回答时间最长的问题再次是俄罗斯方块问题,它花了 2143 秒才生成答案。但它仍然失败了。速度问题让我犹豫是否选择它作为我的最爱。
对于那些寻求响应速度平衡的人来说(我没有在本文中包括,但可以在以下文本文件70B和32B中找到),32B 是一个不错的选择(实际上,考虑到我的设置,我更喜欢它而不是 70B 模型),而R1 模型毕竟是性能最佳的模型。与 32B 相比,70B 模型有更多正确答案,但在我的设置下它太慢了。因此,我不得不放弃它。
AI大模型学习福利
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓