不是 R2,不是 V4,DeepSeek 却悄悄放了个 6710 亿参数的狠活

好消息,DeepSeek 发布新模型了!

坏消息,不是小可爱们心心念念的 DeepSeek-R2DeepSeek-V4

而是一个专注于数学证明和复杂推理的模型:DeepSeek-Prover-V2-671B

此次新模型的发布并开源延续了 DeepSeek 一如既往的低调。

没有任何预热和宣传,Hugging Face 上的 DeepSeek 开源社区悄然上线了这个名为 DeepSeek-Prover-V2-671B 的新模型。

而时间,正好是五一假期的前一刻。

那么,这个新模型是什么来头?

首先划重点,DeepSeek-Prover-V2-671B 不是给你用来聊天、或者运行一般任务的 AI 模型。

实际上,DeepSeek-Prover-V2 可以看作是上一代 Prover-V1.5 的升级版 —— 参数量从 70 亿一下跃升到 6710 亿,重点还是放在 Lean 4 语言下的形式化数学定理证明任务上。

这次升级的一个核心变化,是引入了一个比较特别的冷启动训练流程:用 DeepSeek-V3 作为“引导者”,先把复杂的问题拆解成一个个子目标,再逐步构建对应的证明思路。这个过程中形成的“推理链条”,既包含了问题的分解过程,也保留了完整的数学逻辑路径,最终为大模型提供了一套兼顾非形式化与形式化的训练语料。

不出意外,DeepSeek-Prover-V2 是目前全球最大规模的数学定理证明模型,当然性能也是遥遥领先。

从上面这张对比图可以看出,DeepSeek-Prover-V2 在多个数学评测数据集上都做到了“降维打击”。

不论是针对形式化数学的 MiniF2F-test,还是涵盖北美数学竞赛难题的 PutnamBench,亦或是面向高中竞赛题的 ProverBench-AIME,这个新模型几乎都是碾压式的存在。

简单说几组数字感受一下:

  • MiniF2F-test:88.9% 通过率,远高于同类模型的 70~82%;

  • PutnamBench:一次性解决 49 道题,而前一代 7B 才解出 23 题;

  • AIME 竞赛题子集也能搞定 6 道,仅次于非形式化大模型 DeepSeek-V3 的表现。


DeepSeek-Prover-V2 值得关注吗?

如果你是普通用户,大概率不会也不应该直接用它。

但如果你是对数学 AI 感兴趣的开发者或研究者,它的潜力非常具体:

  • 对数学论文进行形式化验证,尤其是那些长达数十页、细节繁杂的证明;

  • 辅助教材开发:把传统题目变成可验证、可推演的 Lean 格式代码,有助于数学教育;

  • 数学研究助理:在探索过程中给出结构合理的“子问题分解 + 初步猜想”。


这里附上 DeepSeek-Prover-V2 模型的 Hugging Face 链接。

https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

此外,OpenRouter 这个大模型集散地也第一时间上线了免费可用的 DeepSeek-Prover-V2 模型 API 服务。

有需要的小伙伴可以自行“食用”。


结语

虽然不是大家期待的 R2 和 V4,但 DeepSeek 每一次出手,依然让人忍不住多看几眼。


我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。


精选推荐

DeepSeek R1 和 DeepSeek R2 是由 DeepSeek 开发的一系列大语言模型中的两个版本。以下是关于它们之间的主要差异和规格的信息: ### 版本概述 #### DeepSeek R1 DeepSeek R1 是该系列的第一个公开发布的版本,专注于提供高质量的语言理解和生成能力。它基于大量的训练数据集构建而成,并具有较高的参数数量以支持复杂的推理任务[^2]。 #### DeepSeek R2 作为后续迭代产品,DeepSeek R2 对前代进行了多项改进,在性能、效率以及特定应用场景的支持上有所增强。这些变化旨在提升用户体验并扩展其适用范围至更多领域[^3]。 ### 参数对比 | 属性 | DeepSeek R1 | DeepSeek R2 | |--------------------|-------------------------------|-----------------------------| | **发布日期** | 较早时间 | 后续更新 | | **参数量** | 高 | 可能更高 | | **优化方向** | 基础功能完善 | 场景适配性和运行效能 | | **新特性引入** | 初步实现多模态处理 | 加强对话理解与持续学习机制 | 值得注意的是具体数值如确切的参数数目等可能不会完全对外公布, 上表仅作概念性比较之用. ### 技术细节 对于两者的内部架构调整方面,R2着重于以下几个方面的进步: - 更高效的Transformer结构设计使得计算资源消耗降低的同时保持甚至超越原有的精确度水平. - 引入了增量式微调技术(Incremental Fine-Tuning),允许模型通过少量新增样本快速适应新的业务需求而无需重新进行全面的大规模再训练过程.[^4] 另外还增强了针对低延迟实时交互环境下的表现力评估指标体系,确保在诸如在线客服聊天机器人这样的即时响应场景下能够给出更加流畅自然的回答内容. ```python # 示例代码展示如何加载不同版本的预训练权重文件 from deepseek import AutoModelForCausalLM model_r1 = AutoModelForCausalLM.from_pretrained("deepseek/r1") model_r2 = AutoModelForCausalLM.from_pretrained("deepseek/r2") print(model_r1.config) print(model_r2.config) ``` 上述Python片段演示了怎样利用官方库来分别实例化对应型号的对象以便进一步操作分析.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值