五一憋个大招？DeepSeek-Prover-V2：数学核武器，但普通人慎点...

最新推荐文章于 2025-05-06 18:26:38 发布

自动驾驶之心

最新推荐文章于 2025-05-06 18:26:38 发布

阅读量284

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247663339&idx=4&sn=832bd0cb061cdf040a3e2fde4dedbc48&chksm=cfc8b0f5f7b3c957a6bae07d77ca4f50d1ea4b5c91707ae5276e348c7275b52f00ba2185dcb7&scene=126&sessionid=0

版权

点击下方卡片，关注“大模型没那么大”公众号

大模型巨卷干货，即可获取

写在前面

五一假期已开始，然而有人似乎不愿让大家放假。就在前两天，DeepSeek-Prover-V2正式发布，同时放出了技术报告。虽然不是大家心心念念的V4/R2，但由于DeepSeek新发布的一些非通用模型所提出的技术通常会作为后续大型更新的基础（如DeepSeek-V3里的MLA和MoE架构就源自V2版本，而R1所用到的GRPO技术则源自Math版本），因此笔者这两天拜读了Prover-V2的技术报告，并亲自体验了一把效果，然后和大家聊聊感受。

先说结论：此模型是专为生成高阶数学证明推理代码而开发的，需要结合特定的Lean 4证明提示词才能发挥最强能力（这一点在技术报告里也有体现），如果大家想依靠它来解决一般的数学问题，也不使用特定提示词的话，那实际效果可能还不如V3/R1等通用LLM。

技术报告原文链接：https://arxiv.org/pdf/2504.21801

Hugging Face：https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

GitHub（含Prover-V2试用教程）：https://github.com/deepseek-ai/DeepSeek-Prover-V2/tree/main

DeepSeek系列模型简介

考虑到很多朋友可能对现在大模型的命名背后的含义还不是很熟悉，为了方便大家区分DeepSeek系列的不同模型都有什么用，首先简单介绍一下DeepSeek系列模型涉及领域。以下模型全称均为DeepSeek-模型后缀（如DeepSeek-LLM、DeepSeek-V3、DeepSeek-R1...）。

通用LLM：LLM、MoE（V1）、V2、V3

推理模型：R1

视觉语言多模态：VL、VL2、Janus、Janus Flow

代码生成：Coder、Coder-V2

数学：Math、Prover、Prover-V1.5、Prover-V2

因此本次新发布的Prover-V2主要用于数学证明推理，而非通用对话。不过Prover-V2里的新方法应该会成为V4/R2中采用的主要技术。

图1。DeepSeek-Prover-V2的基准性能。在AIME基准测试中，DeepSeekV3使用自然语言推理的标准查找答案任务进行评估，而证明者模型生成精益代码，为给定的正确答案构建形式证明。

Prover-V2关键技术浅析

以下仅代表笔者个人理解，如有错误之处，欢迎大家批评指正。

1. 子目标分解法——让AI像数学家一样思考

人类证明复杂定理时，往往会将其拆解为多个小引理，逐步攻克。DeepSeek-Prover-V2 借鉴了这一思路，采用 “递归子目标分解” 策略：

（1）先画“草图”：让大模型规划证明路径

首先由DeepSeek-V3负责分析数学问题，并用自然语言描述证明思路。
然后，它会把证明拆解成多个子目标，并转换成 Lean 形式化语言（一种常用于数学证明的编程语言）。
不过，模型并不直接生成完整证明，而是输出一个“证明草图”——由多个 have 语句组成，每个语句代表一个待证明的子目标，用 sorry 占位符标记（类似于“这里需要进一步证明”）。

类似于写论文时先列大纲，再逐步填充细节。

（2）递归求解子目标

系统会提取这些子目标，并逐个解决：
- 先解决第一个子目标，然后把它作为已知条件，去证明下一个子目标。
- 这样一步步推进，最终组合出完整证明。
为了高效求解，DeepSeek-Prover-V2 使用了一个 专门优化的 7B 参数证明模型（相比通用大模型，它更擅长形式化推理）。

（3）课程学习：让AI循序渐进学证明

直接训练模型证明复杂定理效率很低，因为大部分尝试都会失败。于是，团队设计了一套 课程学习（Curriculum Learning） 策略：

生成两种子目标变体：
- 带前提条件的子目标（依赖前面已证的引理）。
- 独立子目标（不依赖其他引理）。
这些子目标会被纳入训练数据，让模型从易到难学习，逐步掌握复杂证明。

类似于学数学时，先做基础题，再挑战综合题。

如何将分解的子目标转化为一系列引理语句的说明性示例。首先（a）替换原始目标状态，然后（b）将前面的子目标作为前提。陈述类型（b）用于递归解决复杂问题，而类型（a）和（b）都被纳入课程学习过程。

2. 统一非正式推理和证明形式化——融合“直觉”与“严谨”

DeepSeek-Prover-V2 的核心创新在于 结合了两种能力：

LLM的直觉推理（DeepSeek-V3 负责“想思路”）。
形式化证明模型的严谨推导（7B 小模型负责“写代码”）。

（1）冷启动：先让AI学会“形式化”证明

DeepSeek-Prover-V2采用的冷启动数据收集过程概述。我们首先提示DeepSeek-V3生成一个自然语言证明草图，同时将其形式化为精益语句，并为省略的证明细节添加抱歉占位符。然后，7B证明模型递归求解分解的子目标。通过结合这些子目标证明，我们为原始复杂问题构建了一个完整的形式证明。这个组合证明被附加到DeepSeek-V3的原始思维链中，为形式化数学推理创建了高质量的冷启动训练数据。

首先挑选一批 大模型能分解但小模型无法直接证明的难题作为冷启动样本：

让 DeepSeek-V3 生成证明思路。
让小模型递归解决所有子目标。
最终，组合成一个完整的、经过 Lean 验证的证明。

然后这些数据被用来训练 DeepSeek-Prover-V2，让它学会如何将自然语言推理转化为形式化证明。

相当于让AI自己生成“标准答案”来训练自己。

（2）强化学习：让生成的证明更可靠

后续训练中引入强化学习：

采用 GRPO，让模型生成多个候选证明，选择最优解。
增加 “一致性奖励”，确保生成的证明结构和最初的分解思路一致，避免“跑偏”。

3. 两阶段训练：兼顾速度与准确性

DeepSeek-Prover-V2 支持两种模式：

高效模式（non-CoT）：直接生成简洁的 Lean 代码，适合快速验证。
高精度模式（CoT）：先生成详细的推理步骤，再转化为形式化证明，适合复杂问题。

训练流程

第一阶段：专家迭代（Expert Iteration）

让当前最优模型尝试证明难题。
成功的证明会被加入训练集，用于迭代优化模型。

第二阶段：监督微调 + 强化学习
- 用两部分数据在DeepSeek-V3-Base-671B的基础上进行微调。微调数据来源由两部分：（1）non-COT：专家迭代生成，强调高效生成Lean代码，但不包含推理过程；（2）冷启动COT：来自DeepSeek-V3的高阶数学推理，通过形式化草图展现清晰的推理路径。
- 再用GRPO进一步提升证明能力。
蒸馏与小模型训练
- 将DeepSeek-Prover-V1.5-Base-7B的最大上下文长度从4,096扩展到32,768 token，并利用在671B模型强化学习阶段采集的rollout数据对模型进行微调。
- 在CoT模式之外，还加入了专家迭代期间采集的non-CoT数据，旨在让小模型具备成本更低的证明能力，能够快速输出精炼的形式化结果。
- 此外，还在7B小模型上执行与671B模型相同的强化学习流程。
笔者评测

Prover-V2是专为生成Lean 4形式化证明而开发的，在官方给的demo代码里也可以看到要求生成Lean 4的prompt，不过我们日常生活里基本不会用到。笔者这里没有提示模型生成Lean 4代码，仅跟模型进行正常对话来测试一下其表现。

简单题

1. 若2x+5=17，求x的值。

2. 长方形的长是8厘米，宽是5厘米，它的面积和周长分别是多少？

3. 一个数除以3余2，除以5余3，这个数最小是多少？

总结：简单的代数、逻辑和几何题还是挺轻松的。

中等难度题

1. 抛掷两枚骰子，点数之和为7的概率是多少？

2. 某商品原价200元，先涨价10%，再降价10%，现价是多少？

总结：进阶一点的概率和数学应用题还是没问题的。

较高难度

1. 证明：根号2是无理数。

2. 用1、2、3、4、5组成没有重复数字的五位数，其中大于34000的有多少个？

有点离谱，首先答非所问，另外还有自我否定。再来看看这个问题V3是怎么回答的。

然后对于这个问题笔者在Prover=V2上又添加了Lean 4形式化证明的提示，来看看回答是否有所改善。

好吧，虽然还是会出错，但观感上提升了不少。
1. 如何用数学方法估算一个城市的下水道井盖数量？
总结：数学证明较好，组合数学能力不足，开放性数学推理问题不错

其它

一个比较有意思且大模型很容易出错的问题：数字9.9和9.10哪个大？

首先说明一下为什么要加“数字”两字，笔者在测试时发现如果没有声明，那么模型会反问你问的是数字还是版本号，这里笔者希望得到明确的回答因此加了限定条件。

DeepSeek-V3

ChatGPT

可以发现GPT会吃瘪，V3表现良好，再来看看DeepSeek-Prove-V2。

啊这，好吧，然后笔者又添加了Lean 4形式化证明的提示。

瞬间感觉不一样了！

笔者总结

综合技术报告以及笔者个人测试体验，笔者认为：如果只是求解一般的数学问题，V3已经足够。

Prover-V2的主要还是针对Lean 4，能够被计算机自动检查和验证的证明过程。而这个场景跟我们日常生活里并没多大关系，但是对于研发通用大模型很有帮助，因为推理大模型最依赖的两个任务就是数学和编程，这两个问题让大模型做好了，也就能泛化到更广泛的场景中。而且模型的训练的大致思路和方法也是相通的。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com