DeepSeek-R1,DeepSeek-V3,DeepSeek-VL,DeepSeek-V2,DeepSeek-R1-Zero各个模型区别

最新推荐文章于 2025-03-22 11:45:30 发布

fpga和matlab

最新推荐文章于 2025-03-22 11:45:30 发布

阅读量1.2w

点赞数 25

分类专栏：前言技术汇集 # 人工智能大模型文章标签： DeepSeek

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ccsss22/article/details/145395875

版权

大模型同时被 3 个专栏收录

22 篇文章

订阅专栏

前言技术汇集

14 篇文章

订阅专栏

13 篇文章

订阅专栏

目录

1.各个模型架构

3.模型参数与规模

1.各个模型架构

DeepSeek-R1：未明确有特殊架构说明，但属于推理模型，可能在Transformer架构基础上针对推理做了优化，通过强化学习训练实现大量反思和验证。

DeepSeek-V3：是混合专家（MoE）语言模型，采用Transformer架构。

DeepSeek-VL：整体上是 decoder-only 的 LLaVA 风格架构，包括视觉编码器、视觉语言适配器、专家混合语言模型三个核心模块。

DeepSeek-V2：采用 Transformer 架构，引入 MLA（Multi - head Latent Attention）架构和自研 Sparse 结构 DeepSeekMoE。

DeepSeek-R1-Zero：架构与 DeepSeek-R1 类似，但可能在一些细节上针对无人工标注数据训练进行了优化。

2.训练方式

DeepSeek-R1：在后训练阶段大规模使用强化学习技术，结合DeepSeek IE Zero 与DeepSeek IE 两种核心模型，利用机器生成数据训练。

DeepSeek-V3：使用传统的深度学习训练方法，依赖大量数据来增强模型的通用能力。

DeepSeek-VL：训练过程包括视觉-语言对齐、视觉 - 语言预训练、监督微调（SFT）三个阶段。

DeepSeek-V2：基于高效且轻量级的框架 HAI-LLM 进行训练，采用 16-way zero-bubble pipeline 并行、8-way 专家并行和 ZeRO-1 数据并行。

DeepSeek-R1-Zero：几乎不依赖任何人类数据，完全依靠机器生成数据来进行强化学习训练。

3.模型参数与规模

DeepSeek-R1：参数为 660B。

DeepSeek-V3：拥有 6710 亿参数，其中激活参数为 370 亿。

DeepSeek-VL：DeepSeek-VL2 系列有 DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2，分别具有 10 亿、28 亿和 45 亿个激活参数。

DeepSeek-V2：有 2360 亿参数，其中每个 token 210 亿个活跃参数。

DeepSeek-R1-Zero：参数为 660B。

4.应用场景

DeepSeek-R1：在数学、代码以及各种复杂逻辑推理任务上应用出色，主要用于科学研究、复杂问题求解和逻辑分析。

DeepSeek-V3：应用场景包括聊天和编码场景、多语言自动翻译、图像生成和 AI 绘画等多模态场景。

DeepSeek-VL：用于 VQA、OCR、文档 / 表格 / 图表理解和视觉定位等多模态理解任务。

DeepSeek-V2：能处理自然语言处理中的多种任务，在中文综合能力等方面表现出色。

DeepSeek-R1-Zero：与 DeepSeek-R1类似，在复杂推理等任务上有应用，不过因训练数据特点，可能在一些无人工标注数据相关场景更具优势。

5.性能表现

DeepSeek-R1：在推理任务上表现卓越，在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1正式版。

DeepSeek-V3：在知识类任务、算法类代码场景、工程类代码场景、中文能力、数学能力等方面有一定优势，在多语言编程测试排行榜中，仅次于 OpenAI o1大模型。

DeepSeek-VL：在各种多模态任务中展示了优越的能力，在激活参数相似或更少的情况下实现了具有竞争力或最先进的性能。

DeepSeek-V2：性能达 GPT-4级别，中文综合能力在众多开源模型中最强，英文综合能力与最强的开源模型 LLaMA3-70B处于同一梯队。

DeepSeek-R1-Zero：因和 DeepSeek-R1开源权重相同，性能应该在推理等方面有类似表现，但可能在无人工数据场景更优。

6.发布时间

DeepSeek-R1：2025年1月20日正式发布。

DeepSeek-V3：2024年12月26日推出首个版本。

DeepSeek-VL：DeepSeek-VL2于2024 年12月发布。

DeepSeek-V2：2024 年5月发布。

DeepSeek-R1-Zero：与DeepSeek-R1在2025年1月20日左右同步开源。

7.价格

DeepSeek-R1：API服务定价为每百万输入tokens 1元 (缓存命中)/4元 (缓存未命中)，每百万输出 tokens 16 元。

DeepSeek-V3：API服务定价为每百万输入 tokens 为0.5元 (缓存命中)/2元 (缓存未命中)，每百万输出 tokens 价格为8元。

DeepSeek-V2：API接口价格为每百万 tokens 输入1元、输出2元 (32K 上下文)。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

fpga和matlab 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。