2025 年 1 月 20 日,DeepSeek 发布了全新的开源推理大模型 DeepSeek-R1。
这一模型在数学、编程和推理等多个任务上达到了与 OpenAI o1 相当的表现水平,同时将 API 调用成本降低了 90-95%。
这一发布不仅引发了 AI 圈的广泛关注,更让 DeepSeek 成为了 OpenAI 的有力竞争者。
一、DeepSeek-R1 的核心亮点
1. 纯强化学习的突破
DeepSeek-R1 的最大亮点在于其训练方法。
DeepSeek-R1-Zero 是首个完全通过强化学习(RL)训练的大型语言模型,无需依赖监督微调(SFT)或人工标注数据。
这一突破验证了仅通过奖励信号,模型也能发展出强大的推理能力。
在 AIME 2024 数学测试中:
- 准确率从 15.6% 提升至 71.0%。
- 使用多数投票机制后达到了 86.7%,接近 OpenAI o1-0912 的水平。