12个问题深入理解DeepSeek（含开源周内容）

寒冰屋

于 2025-04-10 21:24:27 发布

阅读量72

点赞数

文章标签：开源 DeepSeek

原文链接：https://mp.weixin.qq.com/s?__biz=MzAwNTMxMzg1MA==&mid=2654101198&idx=7&sn=dba363336e8c8edc9b7882943c39522a&chksm=81b0b469decca12cca599e210520e67ed4793ba4d04812bdbc7a943794bda2e175dbd8905604&scene=126&sessionid=1741264406#rd

版权

一、DeepSeek 创始人是谁？

二、为什么 DeepSeek 能出圈？

三、DeepSeek 的发展历程是什么样的？

四、推理模型和非推理模型是什么？

五、DeepSeek-R1-Zero 是什么？

六、DeepSeek-R1 是什么？

七、R1 和 R1-Zero 是什么关系？

八、可以本机安装的 R1 小模型怎么回事？

九、DeepSeek-R1 怎么达到和 OpenAI 的 o1 差不多的效果？

十、DeepSeek-R1 与其他推理模型的主要区别是什么？

十一、DeepSeek-R1 对 AI 行业有什么影响？

十二、DeepSeek 开源周都开了些什么？

一、DeepSeek 创始人是谁？

DeepSeek 的创始人是梁文锋，1985 年出生。他的职业生涯分为两个大的阶段，先做金融，再做 AI。

1、2015 年: 创立杭州幻方科技，专注于通过数学和 AI 进行量化投资 3、2023 年 5 月: 宣布进军通用人工智能 (AGI) 领域 3、2023 年 7 月: 成立大模型公司 DeepSeek，致力于前沿 AI 技术研发

梁文锋与其他 AI 模型的研究者不同，没有海外经历，毕业于浙江大学电子工程系人工智能方向。整个 DeepSeek 的研发团队也基本都是本土成员。

下面是梁文锋的一些访谈资料：

https://www.bilibili.com/video/BV1LQFQeFEAZ https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA

二、为什么 DeepSeek 能出圈？

1、DeepSeek R1 的效果从测试数据上看，和 o1 差不多，有的方面甚至超过了 o1 。

2、DeepSeek 的 R1 是开源的，而且还是最宽松的 MIT 协议。

3、在技术上有创新，而不只是 Follow 国外的技术。

4、因为创新，成本大幅降低，所以 API 的接口相比 OpenAI 也便宜得离谱。

5、最重要的，DeepSeek 是一家中国公司。

三、DeepSeek 的发展历程是什么样的？

1、2023 年 5 月，DeepSeek（深度求索）成立。

2、2023 年 11 月，DeepSeek Coder 发布，现在依然是开源代码模型的标杆。

3、2024 年 2 月，DeepSeek Math 发布，7B 模型逼近 GPT-4 的能力。

4、2024 年 3 月，DeepSeek VL 发布，作为自然语言到多模态的初探。

5、2024 年 5 月，DeepSeek V2 发布，成为全球最强开源通用 MoE 模型。

6、2024 年 6 月，DeepSeek Code V2 发布，成为最强开源代码模型。

7、2024 年 9 月，DeepSeek V2.5 发布，融合通用和代码能力的全新开源模型。

8、2024 年 11 月，DeepSeek R1 Lite 预览版上线，展现了公开的完整思考过程，没错，就是 OpenAI o1 藏着掖着的那个。

9、2024 年 12 月 10 日，DeepSeek V2.5-1210 发布，V2 模型收官，官网上线了联网搜索。

10、2024 年 12 月 26 日，DeepSeek V3 发布，性能接近顶级闭源模型，生成速度提升至 60 TPS，比 V2 快 3 倍。

11、2025 年 1 月 20 日，DeepSeek R1 发布，性能对标 OpenAI o1 ，同时发布了从 1.5B 到 70B 蒸馏的小模型。

12、2025 年 2 月 24 日到 2 月 28 日，DeepSeek 的开源周，连续开源了 FlashMLA、DeepEP、DeepGEMM、DualPipe、EPLP、3FS、Smallpond 。

四、推理模型和非推理模型是什么？

在 DeepSeek 发布的模型中 V3 和 R1 是被大家所熟知的。这两个模型正好代表了两种模型的类型，V3 是非推理模型，R1 是推理模型。

非推理模型：通过训练，自身拥有丰富的知识，能根据之前学到的知识直接给出答案，不需要复杂的思考过程，运行速度更快。例如：基于知识库的总结、翻译等场景。

推理模型：会逐步分析问题，考虑多种可能性，就像人做数学题一样，一步步推导，最后给出结果。使用 R1 时会显示思考的过程，其实光是看看这个思考过程也能学习到不少。DeepSeek 频繁出现服务器无响应，一个原因就是用户不管问什么问题都会勾选上深度思考，导致算力紧张。

DeepSeek 是因为发布 R1 后才开始爆火的，导致很多人以为 R1 能解决所有问题，这其实是不对的，比如在 RAG 场景下就不太适合，除非思考效率有显著提高。

五、DeepSeek-R1-Zero 是什么？

常规的模型开发中，强化学习（RL）加上监督微调（SFT）是首选方法。

但 DeepSeek 在 R1-Zero 模型上进行了创新尝试，以 V3 模型作为基础，进行纯强化学习，没有进行任何的监督微调。

采用组相对策略优化（GRPO）框架和基于规则的奖励系统（包括准确性奖励和格式奖励）。模型自然展现出自我验证、反思和生成长思维链等能力。

通过这种方式让模型自己生成推理能力，还出现了啊哈时刻，如下图：

虽然 R1-Zero 具有很强的推理能力，但存在输出内容语言混杂、格式混乱等缺点，所以才会有后面的 R1 模型。

六、DeepSeek-R1 是什么？

DeepSeek-R1 是在 R1-Zero 基础上进一步发展的模型，结合少量冷启动数据和多阶段训练流程，解决了 R1-Zero 的可读性和语言混杂问题。

第一阶段：冷启动数据是 R1-Zero 生成的（数千条高质量的思维链 CoT 数据），使用这些数据对基础模型进行微调。

第二阶段：大规模强化学习，这个强化学习过程中保留了 R1-Zero 的准确性奖励和格式奖励，并且添加了一致性奖励来防止语言混乱。

第三阶段：进行了又一轮的监督微调（SFT）数据收集，这个数据分为两个部分：推理数据和非推理数据。

推理数据：在第二阶段训练强化学习的基础上生成了 60 万个思维链（CoT）示例数据
非推理数据：使用 V3 基础模型生成了 20 万个通用知识的示例数据

使用这 80 万的数据以 V3 为基础进行微调。

第四阶段：额外的强化学习训练，考虑来自所有场景的提示，最终得到了 R1 。

这种多阶段流程解决了 R1-Zero 的可读性和语言混杂问题，同时进一步提升了推理性能，使 DeepSeek-R1 达到与 OpenAI-o1-1217 相当的水平。

七、R1 和 R1-Zero 是什么关系？

1、R1-Zero 是 DeepSeek 的初步实验模型，目的就是为了验证强化学习（RL）在推理任务中的潜力，并为进一步训练提供数据。

2、DeepSeek R1 是在 R1-Zero 的基础上通过多阶段训练优化得到的。

3、可以这么来理解，R1-Zero 是技术验证，而 R1 是面向实际应用的成熟产品。

八、可以本机安装的 R1 小模型怎么回事？

R1 的满血版本有 671B，个人电脑是没办法部署的，现在常说的在私有部署 DeepSeek R1 通常指的是 R1 的蒸馏小模型，一共有 6 个：

DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Llama-70B

这六个模型分别对应 Qwen 和 Llama 的：

Qwen2.5-Math-1.5B
Qwen2.5-Math-7B
Llama-3.1-8B
Qwen2.5-14B
Qwen2.5-32B
Llama-3.3-70B-Instruct

上面第六点中提到，R1 训练的第三个阶段产生了 80 万的数据。这个数据以 V3 这种大模型为基础，进行微调和强化学习，最终得到了 R1 。

以这 80 万数据放到 Qwen 和 Llama 的小模型上面进行指令微调，就得到了最后的蒸馏版本的 R1 。

R1 满血版和蒸馏版都是基于同样的 80 万数据，区别是一个是满血版使用的是 V3 模型为基础模型，蒸馏版使用的是 Qwen 和 Llama 作为基础模型。

九、DeepSeek-R1 怎么达到和 OpenAI 的 o1 差不多的效果？

首先，采用组相对策略优化（GRPO）强化学习框架，减少传统强化学习中的方差问题。

其次，实施多阶段训练流程，包括冷启动数据微调、强化学习、拒绝采样和再次微调。

第三，设计精细的基于规则的奖励系统，包括准确性奖励和格式奖励。

第四，优化测试时计算，允许模型生成长思维链解决复杂问题。

最后，DeepSeek-R1 基于混合专家架构（MoE），拥有 6710 亿参数，同时通过算法创新（如 MLA、DeepSeekMoE）和工程优化（如 FP8 精度训练）大幅提升了训练效率。这种方法使 R1 在数学、代码和推理任务上表现出与 o1 相当的能力。

十、DeepSeek-R1 与其他推理模型的主要区别是什么？

DeepSeek-R1 与其他推理模型的主要区别在于训练方法和开放程度。

在训练方法上，R1 创新性地将强化学习直接应用于基础模型，无需大量监督数据，并通过多阶段训练流程解决了纯强化学习模型的缺陷。

在性能上，R1 达到了与 OpenAI-o1 相当的水平，但训练成本仅为后者的约 6%。

在开放程度上，R1 使用了最宽松的 MIT 开源协议，同时详细公开了训练方法和技术细节，而 OpenAI 对 o1 的算法和训练方式保密。

此外，DeepSeek 通过蒸馏技术开源了多个小型模型，使普通用户和小型企业也能使用高性能推理模型，打破了 AI 技术的垄断，降低了行业门槛。

十一、DeepSeek-R1 对 AI 行业有什么影响？

DeepSeek-R1 作为 2025 年 AI 领域的重要突破，通过技术创新重塑了产业格局并带来深远社会影响。

技术革新：DeepSeek-R1 采用混合专家模型 (MoE) 和多投潜注意力 (MLA) 算法，显著提升推理效率，使训练成本仅为 GPT-4 的 1/70，推理成本降至 1/256。它突破了传统 Scaling Law 瓶颈，通过算法优化和训练方式改进，在有限算力条件下持续提升性能。虽然当前以文本处理为主，但结合知识蒸馏技术，其能力可以迁移至轻量化模型，推动端侧 AI 设备发展。

产业重构：低成本高性能的特点使 DeepSeek-R1 在金融、医疗、法律等垂直领域快速渗透。它带动了国产大模型生态崛起，部分模型已超越国际竞品。其 API 定价仅为 OpenAI 的 1/30，大幅降低使用门槛，推动"算力平权"。同时，端侧 AI 部署需求增长激活了国产芯片及 AI 硬件的研发。

社会影响：就业结构方面，AI 接管重复性工作，催生"超级个体"，但也可能加剧就业极化。伦理治理方面，AI 决策介入引发权力失衡风险，数据垄断可能形成"模型封建制"。

未来趋势：技术上，多模态能力和训练方法将持续优化；应用上，AI Agent 将普及并深化人机协作；政策上，可能通过 AI 税调节技术红利分配，加大基础设施投入。

DeepSeek-R1 标志着 AI 进入"成本驱动普及、垂直应用爆发"新阶段。未来 AI 竞争不仅在技术性能上，更在于实现技术普惠、人机共生与社会包容性发展。

这一段的内容由 DeepSeek 生成。