DeepSeek-Prover-V2-671B 发布，LEAN + GRPO的威力-CSDN博客

本文链接：https://blog.csdn.net/2401_85343303/article/details/147685339

昨晚笔者总结整理了 d1：通过GRPO在扩散LLM中缩放推理，带大家领略了 diffusion + GRPO 威力，也再次印证笔者关于GRPO 是DeepSeek魔法的源泉的判断。

无独有偶，另一个类似的成功模型就是DeepSeek-Prover，在笔者看来就是 LEAN + GRPO的成功，今天DeepSeek居然赶在五一之前放出来DeepSeek-Prover-V2-671B，让大家好好过个“劳动”节。

一、DeepSeek-Prover-V2-671B

https://deepseeksai.com/prover-v2-671b/ 官方称：这是迄今为止最前沿的自动化定理证明模型。

采用 6710 亿参数的专家混合（MoE）骨干网设计，但在推理时每个标记仅激活约 370 亿参数，从而在容量与效率间取得平衡；同时具备约 12.8 万标记的超长上下文窗口，能够处理异常冗长的证明脚本。

总结核心特点：总参数量大，能够捕捉复杂数学模式的深层特征；超长上下文窗口，支持多引理、多段式证明；MoE多头隐式注意力机制减少 KV 缓存开销，可在 NVIDIA 4090 上运行；完全开源。

笔者认为本质上这将展现 LEAN + GRPO的巨大威力。

数学领域最大的突破之一 LEAN 如何将数学引入编码，将编码引入数学介绍过 LEAN，在形式化数学日益受到关注的今天，大语言模型正以前所未有的方式介入严谨的数学证明世界。

V2的论文暂未放出，目前只能够通过DeepSeek-Prover-V1.5的论文版本【文献1】，一窥其背后的技术内核。

本次推出的 V2 模型对前代顶尖水平的 V1.5 进行了显著升级：

能力	V1.5 (70亿参数密集模型)	V2-6710亿参数 (基于报告/技术沿袭)
参数量	70亿	6710亿 (MoE) – 模型容量大幅提升。
强化学习	RLPAF（二元证明成功奖励）	核心原理相同但规模扩展，可能采用基于奖励加权的门控机制实现数学领域专家 specialization。
搜索策略	RMaxTS MCTS	预期更深入高效的搜索，MoE 结构可能增强性能（如跨专家并行 speculative decoding）。
上下文长度	32K token	~128K token – 可处理更冗长复杂的证明。
通过率 (miniF2F, 64样本)	63.5%（2024年8月 SOTA）	推测 >75% （待官方基准测试确认）。

V1.5是一个基于 Lean 4 证明助手构建的开源形式化定理证明模型，当时刷新了多个公开基准测试记录，还为强化学习与搜索技术在自动定理证明中的融合提供了全新范式。

Prover系列背后的核心理念是什么？它解决了哪些难点，又是如何将自然语言建模、强化学习与搜索技术有效结合的？

二、LLM 为何难以征服形式化数学

形式化定理证明（formal theorem proving）不同于自然语言生成，它要求模型不仅能理解复杂的数学概念，还要以符合逻辑规则的形式生成可被证明助手验证的语法正确、语义有效的证明步骤。

过去的方法主要分为两类：

逐步证明生成（step-wise proving）：每次生成一个证明步骤，并通过助手实时验证，这种方法更细粒度但推理效率较低。

整段式证明生成（whole-proof generation）：一次性生成整个证明脚本，推理速度更快，但很难保证每一步的有效性。

DeepSeek-Prover-V1 在整段式生成上取得了显著成绩（miniF2F 上达到了 50% 通过率），但遗留三个关键问题需在V1.5中解决：

没有充分利用证明助手的反馈；缺乏灵活的搜索策略去探索多种可能的证明路径；无法有效从失败中学习。

Refer to caption

三、模型架构与训练策略

DeepSeek-Prover-V1.5 基于 DeepSeekMath-Base，一个针对数学语料（包括 Lean、Isabelle 和 Metamath）进行预训练的 transformer 模型。

相比通用 LLM，这类模型更擅长处理形式化语法与推理结构。请参考 DeepSeek R1 & R2 技术原理不同层次/尺度语言处理章节。

DeepSeek团队构建了一个高质量的 Lean 4 证明语料库，包含以下几个来源:

DeepSeek-Prover-V1 自动生成的高质量证明（经人工过滤）；Lean 社区主力库 Mathlib4 中的实际证明代码；来自 miniF2F 和 ProofNet 等基准测试的真实问题数据。

然后通过精细标注与多源融合对数据集做了增强，加入了中间状态注释与分步解释性注释，使模型能在训练中学习到更细粒度的推理模式与语义约束。

Refer to caption

预训练后，模型通过监督微调（SFT）进一步强化对 Lean 4 的掌握。这一阶段主要创新：

Truncate-and-resume（截断续写），将长证明拆分为多个片段，训练模型在中间状态下继续证明；CoT提示，引导模型以类人类的分步推理方式生成脚本。

四、证明反馈强化学习+内在奖励的蒙特卡洛

论文同样采用了 GRPO（Generalized Reinforce with Proof Outcome） 的策略梯度算法，可参考GRPO 是DeepSeek魔法的源泉。

GRPO算法通过 Lean 4 的自动验证结果作为奖励信号进行训练：

证明通过正奖励，证明失败负奖励。此奖励方式直接优化模型生成成功证明的能力，突破了传统监督学习“只能学成功样本”的限制。

Refer to caption

在相同采样预算（如 3200 次生成尝试）下，RLPAF 能将 miniF2F 的通过率从 53.3% 提高至 54.9%；在更大规模采样（64 × 6400）下，性能更是提升至 60.2%。

传统 MCTS（Monte-Carlo Tree Search）常常过度利用已知成功路径，忽略了那些“尚未探索”的潜在解，结果导致搜索陷入局部最优。

论文构建了内在奖励的蒙特卡洛树搜索新算法RMaxTS。RMaxTS（Reward-Maximizing Tree Search），其核心机制：

R-Max 原则，对未知分支假设其可能带来最大回报，鼓励模型主动探索；内在奖励设计，通过比较当前状态与历史状态的 embedding 距离，评估其“新颖性”，并给予额外奖励。

五、效果与潜在提升空间

结合 RLPAF 与 RMaxTS 后，模型在 miniF2F 上达到了前所未有的 63.5% 通过率，ProofNet 上也达到了 25.3%，全面刷新开源模型 SOTA。

Refer to caption

文中DeepSeek-Prover团队指出，V1.5 已取得重要突破，但还存在以下潜在提升空间：

更大规模模型以进一步提升泛化能力；引入如 Isabelle、Coq 等其他助手反馈进行交叉验证；设计人机协作框架，让模型从专家反馈中快速迭代优化。

这些是DeepSeek-Prover-V2 此次发布的重要提升方向，顶级的策略都是阳谋，赌的就是竞争对手认知的差距。

DeepSeek-Prover-V2 早期基准测试表明，在 miniF2F 上的通过率可达 70–75 %，接近 40 % 以上 ProofNet 表现，大幅超越以往最佳水平。

DeepSeek-Prover展示了一个令人信服的范例：将大模型训练、强化学习、证明助手反馈与智能搜索策略无缝结合，可在复杂、严谨的数学问题中取得突破性成果。

这不仅是形式化 AI 研究的重要里程碑，也为未来“可验证人工智能”的发展提供坚实基础。对自动化数学、形式验证或 LLM 的推理能力感兴趣，DeepSeek-Prover系列将是一个值得深入探索的平台。

尽管 R2 还没发布，DeepSeek R1 & R2 技术原理已经预判其核心技术方向，大模型的数理认知框架则是根本。普通人别奢望4+4，好好学GRPO+LEAN，董的都懂。

大模型&AI产品经理如何学习

求大家的点赞和收藏，我花2万买的大模型学习资料免费共享给你们，来看看有哪些东西。

1.学习路线图

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

（都打包成一块的了，不能一一展开，总共300多集）

因篇幅有限，仅展示部分资料，需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档，有几百本，都是目前行业最新的。

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

DeepSeek-Prover-V2-671B 发布，LEAN + GRPO的威力

总结核心特点： 总参数量大，能够捕捉复杂数学模式的深层特征；超长上下文窗口，支持多引理、多段式证明；MoE多头隐式注意力机制减少 KV 缓存开销，可在 NVIDIA 4090 上运行；完全开源。

论文构建了内在奖励的蒙特卡洛树搜索新算法RMaxTS。RMaxTS（Reward-Maximizing Tree Search），其核心机制：

R-Max 原则，对未知分支假设其可能带来最大回报，鼓励模型主动探索；内在奖励设计，通过比较当前状态与历史状态的 embedding 距离，评估其“新颖性”，并给予额外奖励。

大模型&AI产品经理如何学习

1.学习路线图

2.视频教程

3.技术文档和电子书

4.LLM面试题和面经合集

总结核心特点：总参数量大，能够捕捉复杂数学模式的深层特征；超长上下文窗口，支持多引理、多段式证明；MoE多头隐式注意力机制减少 KV 缓存开销，可在 NVIDIA 4090 上运行；完全开源。