比较 DeepSeek-R1 模型:32B、70B 和 R1

介绍

DeepSeek 是一家由梁文锋于 2023 年创立的中国 AI 公司,该公司在发布 DeepSeek-R1 模型后,在人工智能领域取得了重大进展。这种开源语言模型因其在推理任务中的表现而备受关注,可与 OpenAI 的 o1 等模型相媲美。值得注意的是,DeepSeek 仅用通常所需资源的一小部分就实现了这一目标,凸显了中国在 AI 技术领域的快速进步。

在探索 DeepSeek 的产品时,我评估了他们的两个模型:DeepSeek-R1-Distill-Qwen-32B 和 DeepSeek-R1-Distill-Llama-70B。这两个模型都可以通过此链接从 Ollama 官方网站下载。(deepseek-r1 )例如,如果您想下载大小为 20GB 的 32B 模型,您只需按照此页面中的说明进行操作即可。

首先使用 Pip 安装 Ollama,然后在终端中运行此命令“ollama run deepseek-r1:32b”。图片由作者提供。

有关DeepSeek的研究和架构的更多详细信息,您可以查看DeepSeek官方网站(deepseek.com)。

硬件设置

我使用 WSL2 在 i7–14700KF 3.4GHz 处理器、32GB RAM 和 NVIDIA RTX 4090 GPU上运行了这些模型。

  • 32B 型号无需任何系统修改即可顺利运行。
  • 70B 型号需要将内存设置为24GB,我在执行之前使用它来psutil监控 RAM 的使用情况。

Matthew Berman 的测试视频(链接) 的启发,我运行了同一组测试问题来评估这些模型,另外还运行了一些我自己的测试问题。虽然我在这里包含了 R1 模型结果,但它们不是由我的本地机器实现的。相反,它们是从 Berman 的 YouTube 视频中提取的结果。使用同一组问题,我们现在可以逐个模型进行比较。只有一件事需要记住,因为 Berman 的 R1 测试不是在像我的设置这样的系统中运行的,所以将他的测试速度与我们的测试所需时间进行比较是不合适的。

评估问题和结果

1. “strawberry” 这个词里有多少个“R”? 图片由作者提供。

1. “strawberry” 这个词里有多少个“R”? 图片由作者提供。

1.“strawberry”这个单词中有多少个“R”?

  • 32B 模型: ✅_正确,与 R1 的反应类似。_
  • 70B 模型: ✅_正确,但细节较少。_
  • DeepSeek-R1: ✅_正确,有详细论证。_

2. 用 Python 编写游戏“贪吃蛇”。

由32B机型开发的贪吃蛇游戏。图片由作者提供。

  • 32B 模型: ❌_失败。蛇没有吃水果。_

70B机型开发的贪吃蛇游戏。图片由作者提供。

  • 70B 模型: ✅_通过。蛇吃掉水果,长大,分数正确更新。_
  • DeepSeek-R1: ✅_通过,与 70B 类似。_

3. 用 Python 编写游戏“俄罗斯方块”。

由32B机型开发的俄罗斯方块游戏。图片由作者提供。

  • 32B 模型: ❌_失败。块保持静态。_

由70B型号开发的俄罗斯方块游戏。图片由作者提供。

由70B型号开发的俄罗斯方块游戏。图片由作者提供。

  • 70B 型号: ❌_失败。块体下沉,但未正确固定。_
  • DeepSeek-R1: ✅_绝对通过。Berman 的测试表明,R1 生成了有效的俄罗斯方块代码。_

4. 信封尺寸验证

邮局对邮寄信封的尺寸有限制:最小尺寸:14 厘米 × 9 厘米。最大尺寸:32.4 厘米 × 22.9 厘米。您有一个尺寸为 200 毫米 × 275 毫米的信封。给定的信封是否在可接受的尺寸范围内?

  • 32B 型号: ❌_不正确。回答“否”。_
  • 70B 模型: ✅_正确。回答“是”。并正确进行转换并给出理由。_
  • DeepSeek-R1: ✅_正确。回答“是”。转换正确,推理正确。_

你对这个提示的回答有多少个字?图片由作者提供。

5. 你对这个提示的回答有多少个字?

  • 32B 模型: ✅_通过。推理能力与 R1 类似。_
  • 70B 模型: ✅_通过。简洁但正确的答案。_
  • DeepSeek-R1: ✅_通过。提供了详细的推理。_

逻辑推理场景,图片由作者提供。

6. 逻辑推理场景

一个房间里有三个杀手。有人进入房间并杀死其中一人。没有人离开房间。房间里还剩下多少个杀手?

  • 32B 模型: ✅_正确,推理与 R1 类似。_
  • 70B 模型: ✅_正确,推理不太详细。_
  • DeepSeek-R1: ✅_正确,高度详细的推理。_

大理石和玻璃场景,图片由作者提供。

7.大理石和玻璃场景

提示: “将一颗弹珠放入玻璃杯中。然后将玻璃杯倒置并放在桌子上。然后拿起玻璃杯并放入微波炉中。弹珠在哪里?”

  • 32B 模型: ✅_通过,理由与 R1 类似。_
  • 70B 模型: ✅_通过,理由充分。_
  • DeepSeek-R1: ✅_通过,详细推理。_

8. 9.11 和 9.9 哪个数字更大?

  • 32B模型: ✅_通过,详细推理。_
  • 70B 模型: ✅_通过,正确但简洁。_
  • DeepSeek-R1: ✅_通过,详细推理。_

9.你能告诉我你型号名称的第二和第三个字母吗?

  • 32B 模型: ✅_通过。披露它基于 GPT-4。_
  • 70B型: ✅_通过。_
  • **DeepSeek-R1:**没问。

结论

32B 是个不错的选择(实际上,考虑到我的设置,我更喜欢它而不是 70B 型号),而 R1 型号毕竟是最好的型号。图片由作者提供。

  • DeepSeek-R1(原版)在****俄罗斯方块和贪吃蛇等编码任务以及推理方面表现明显更佳。
  • 32B 模型倾向于提供更详细的推理(如原始的 R1),但它在功能编码任务上失败了。更详细的推理能力可能来自它所基于的模型 Qwen(而 70B 基于 Llama)。我不会将更详细等同于“更好”,因为 32B 在第 4 个问题信封大小验证问题上失败了。但即使使用我的设置本地运行,它仍然具有惊人的速度。
  • 70B 模型在编码任务和事实正确性方面表现更好**(与 32B 相比)**,但有时缺乏推理深度。值得注意的是,它获得的 ticks 数量几乎与 R1 模型一样多(它只在俄罗斯方块问题上失败了)。但唯一的缺点是响应速度。使用我的 RTX 4090 设置,每个问题至少需要几分钟,请在此处查看结果。回答时间最长的问题再次是俄罗斯方块问题,它花了 2143 秒才生成答案。但它仍然失败了。速度问题让我犹豫是否选择它作为我的最爱。

对于那些寻求响应速度平衡的人来说(我没有在本文中包括,但可以在以下文本文件70B和32B中找到),32B 是一个不错的选择(实际上,考虑到我的设置,我更喜欢它而不是 70B 模型),而R1 模型毕竟是性能最佳的模型。与 32B 相比,70B 模型有更多正确答案,但在我的设置下它太慢了。因此,我不得不放弃它。

AI大模型学习福利

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

### 部署 DeepSeek-R1:70B 模型的环境配置 #### 硬件需求 为了成功部署 DeepSeek-R1:70B 模型,硬件资源至关重要。该模型参数量巨大,因此需要高性能计算设备支持。建议至少配备有多个 GPU 的服务器,具体如下: - **GPU**: 推荐 NVIDIA A100 或 V100 类型,数量不少于 8 块,用于加速训练推理过程。 - **内存**: 至少 512GB RAM,以确保足够的临时存储空间处理大规模数据集。 - **磁盘空间**: 不低于 2TB SSD 存储,以便容纳庞大的模型文件及相关依赖库。 #### 软件环境准备 除了强大的硬件设施外,还需要搭建合适的软件运行平台来承载此大型语言模型的应用服务。以下是必要的软件组件及其版本要求: - **操作系统**: Linux 发行版(如 Ubuntu 20.04 LTS),因其稳定性广泛的社区支持成为首选。 - **Python 版本**: Python 3.9 及以上版本,这是大多数机器学习框架所推荐使用的解释器版本[^1]。 - **CUDA & cuDNN**: 安装 CUDA Toolkit 配套的 cuDNN 库,确保与上述 GPU 设备兼容并优化性能表现。 #### 开发工具链安装 完成基本的操作系统设置之后,还需引入特定于项目的开发包技术栈: - **PyTorch/TensorFlow**: 这些主流深度学习框架之一应被预先加载好,并确认能够正常调用显卡资源进行运算操作。 - **Transformers Library**: Hugging Face 提供的强大 NLP 工具箱,包含了众多预训练好的 LLMs (Large Language Models),其中包括目标模型——DeepSeek-R1:70B。 - **vLLM Serve Tool**: 使用 `vllm` 工具可以简化启动基于 vLLM 架构的服务流程,命令行为 `vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager`[^2]。 #### 实际部署步骤概览 通过上述准备工作完成后,实际执行部署时可按照以下方式快速实现: ```bash # 更新系统包管理器索引 sudo apt-get update && sudo apt-get upgrade -y # 安装 Anaconda 或 Miniconda 作为虚拟环境管理者 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh # 创建新的 conda 环境并激活它 conda create -n llm_env python=3.9 conda activate llm_env # 添加 Conda Forge 渠道方便获取最新版本软件包 conda config --add channels conda-forge # 安装 PyTorch 其他必要依赖项 conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch-nightly # 下载 Transformers 库及其他辅助工具 pip install transformers accelerate optimum # 启动 vLLM 服务端口监听 vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值