DeepSeek-Prover-V2-671B 发布,LEAN + GRPO的威力

昨晚笔者总结整理了 d1:通过GRPO在扩散LLM中缩放推理 , 带大家领略了 diffusion + GRPO 威力,也再次印证笔者关于GRPO 是DeepSeek魔法的源泉的判断。

无独有偶,另一个类似的成功模型就是DeepSeek-Prover,在笔者看来就是 LEAN + GRPO的成功,今天DeepSeek居然赶在五一之前放出来DeepSeek-Prover-V2-671B,让大家好好过个“劳动”节。

一、DeepSeek-Prover-V2-671B

图片

https://deepseeksai.com/prover-v2-671b/ 官方称:这是迄今为止最前沿的自动化定理证明模型。

采用 6710 亿参数的专家混合(MoE)骨干网设计,但在推理时每个标记仅激活约 370 亿参数,从而在容量与效率间取得平衡;同时具备约 12.8 万标记的超长上下文窗口,能够处理异常冗长的证明脚本。

总结核心特点: 总参数量大,能够捕捉复杂数学模式的深层特征;超长上下文窗口,支持多引理、多段式证明;MoE多头隐式注意力机制减少 KV 缓存开销,可在 NVIDIA 4090 上运行;完全开源。

笔者认为本质上这将展现 LEAN + GRPO的巨大威力。

数学领域最大的突破之一 LEAN 如何将数学引入编码,将编码引入数学 介绍过 LEAN,在形式化数学日益受到关注的今天,大语言模型正以前所未有的方式介入严谨的数学证明世界。

V2的论文暂未放出,目前只能够通过DeepSeek-Prover-V1.5的论文版本【文献1】,一窥其背后的技术内核。

本次推出的 V2 模型对前代顶尖水平的 V1.5 进行了显著升级:

能力V1.5 (70亿参数密集模型)V2-6710亿参数 (基于报告/技术沿袭)
参数量

70亿

6710亿 (MoE) 

– 模型容量大幅提升。

强化学习

RLPAF(二元证明成功奖励)

核心原理相同但规模扩展

,可能采用基于奖励加权的门控机制实现数学领域专家 specialization。

搜索策略

RMaxTS MCTS

预期更深入高效的搜索

,MoE 结构可能增强性能(如跨专家并行 speculative decoding)。

上下文长度

32K token

~128K token 

– 可处理更冗长复杂的证明。

通过率 (miniF2F, 64样本)

63.5%(2024年8月 SOTA)

推测 >75%

(待官方基准测试确认)。

V1.5是一个基于 Lean 4 证明助手构建的开源形式化定理证明模型,当时刷新了多个公开基准测试记录,还为强化学习与搜索技术在自动定理证明中的融合提供了全新范式。

Prover系列背后的核心理念是什么?它解决了哪些难点,又是如何将自然语言建模、强化学习与搜索技术有效结合的?

二、LLM 为何难以征服形式化数学

形式化定理证明(formal theorem proving)不同于自然语言生成,它要求模型不仅能理解复杂的数学概念,还要以符合逻辑规则的形式生成可被证明助手验证的语法正确、语义有效的证明步骤。

过去的方法主要分为两类:

逐步证明生成(step-wise proving):每次生成一个证明步骤,并通过助手实时验证,这种方法更细粒度但推理效率较低。

整段式证明生成(whole-proof generation):一次性生成整个证明脚本,推理速度更快,但很难保证每一步的有效性。

DeepSeek-Prover-V1 在整段式生成上取得了显著成绩(miniF2F 上达到了 50% 通过率),但遗留三个关键问题需在V1.5中解决:

没有充分利用证明助手的反馈;缺乏灵活的搜索策略去探索多种可能的证明路径;无法有效从失败中学习。

Refer to caption

三、模型架构与训练策略

DeepSeek-Prover-V1.5 基于 DeepSeekMath-Base,一个针对数学语料(包括 Lean、Isabelle 和 Metamath)进行预训练的 transformer 模型。

相比通用 LLM,这类模型更擅长处理形式化语法与推理结构。请参考 DeepSeek R1 & R2 技术原理 不同层次/尺度语言处理章节。

DeepSeek团队构建了一个高质量的 Lean 4 证明语料库,包含以下几个来源:

 DeepSeek-Prover-V1 自动生成的高质量证明(经人工过滤);Lean 社区主力库 Mathlib4 中的实际证明代码;来自 miniF2F 和 ProofNet 等基准测试的真实问题数据。

然后通过精细标注与多源融合对数据集做了增强,加入了中间状态注释分步解释性注释,使模型能在训练中学习到更细粒度的推理模式与语义约束。

Refer to caption

预训练后,模型通过监督微调(SFT)进一步强化对 Lean 4 的掌握。这一阶段主要创新:

Truncate-and-resume(截断续写),将长证明拆分为多个片段,训练模型在中间状态下继续证明;CoT提示,引导模型以类人类的分步推理方式生成脚本。

四、证明反馈强化学习+内在奖励的蒙特卡洛

论文同样采用了 GRPO(Generalized Reinforce with Proof Outcome) 的策略梯度算法,可参考GRPO 是DeepSeek魔法的源泉

GRPO算法通过 Lean 4 的自动验证结果作为奖励信号进行训练:

证明通过正奖励,证明失败负奖励。此奖励方式直接优化模型生成成功证明的能力,突破了传统监督学习“只能学成功样本”的限制。

Refer to caption

在相同采样预算(如 3200 次生成尝试)下,RLPAF 能将 miniF2F 的通过率从 53.3% 提高至 54.9%;在更大规模采样(64 × 6400)下,性能更是提升至 60.2%。

传统 MCTS(Monte-Carlo Tree Search)常常过度利用已知成功路径,忽略了那些“尚未探索”的潜在解,结果导致搜索陷入局部最优。

论文构建了内在奖励的蒙特卡洛树搜索新算法RMaxTS。RMaxTS(Reward-Maximizing Tree Search),其核心机制:

R-Max 原则,对未知分支假设其可能带来最大回报,鼓励模型主动探索;内在奖励设计,通过比较当前状态与历史状态的 embedding 距离,评估其“新颖性”,并给予额外奖励。

五、效果与潜在提升空间

结合 RLPAF 与 RMaxTS 后,模型在 miniF2F 上达到了前所未有的 63.5% 通过率,ProofNet 上也达到了 25.3%,全面刷新开源模型 SOTA。

Refer to caption

文中DeepSeek-Prover团队指出,V1.5 已取得重要突破,但还存在以下潜在提升空间:

更大规模模型以进一步提升泛化能力;引入如 Isabelle、Coq 等其他助手反馈进行交叉验证;设计人机协作框架,让模型从专家反馈中快速迭代优化。

这些是DeepSeek-Prover-V2 此次发布的重要提升方向,顶级的策略都是阳谋,赌的就是竞争对手认知的差距。

DeepSeek-Prover-V2 早期基准测试表明,在 miniF2F 上的通过率可达 70–75 %,接近 40 % 以上 ProofNet 表现,大幅超越以往最佳水平。


DeepSeek-Prover展示了一个令人信服的范例:将大模型训练、强化学习、证明助手反馈与智能搜索策略无缝结合,可在复杂、严谨的数学问题中取得突破性成果。

这不仅是形式化 AI 研究的重要里程碑,也为未来“可验证人工智能”的发展提供坚实基础。对自动化数学、形式验证或 LLM 的推理能力感兴趣,DeepSeek-Prover系列将是一个值得深入探索的平台。

尽管 R2 还没发布,DeepSeek R1 & R2 技术原理已经预判其核心技术方向,大模型的数理认知框架则是根本。普通人别奢望4+4,好好学GRPO+LEAN,董的都懂。

 

 大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书 

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。



4.LLM面试题和面经合集


这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。



👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值