论文《s1: Simple test-time scaling》核心总结

最新推荐文章于 2025-06-11 10:52:50 发布

种花家的码农

最新推荐文章于 2025-06-11 10:52:50 发布

阅读量930

点赞数 3

分类专栏：期刊论文阅读文章标签：人工智能深度学习神经网络论文阅读

本文链接：https://blog.csdn.net/lovecode2008/article/details/145482193

版权

1 篇文章

订阅专栏

s1K数据集构建
- 筛选标准：从59K初始数据集通过三阶段过滤（质量→难度→多样性）得到1,000个高价值数学/科学推理样本。
- 关键验证：相比随机采样/仅长序列选择，三阶段过滤性能提升高达30%（AIME24任务）。
- 示例来源：涵盖概率论PhD考题、量化面试难题（如PuzzledQuant）、奥赛题等多领域问题。
预算强制（Budget Forcing）
- 动态调整：
  - 终止生成：若模型提前生成结束符，强制追加"Wait"触发重新思考（图3示例显示可修正错误）。
  - 延长窗口：通过允许扩展生成思考路径，平均提升AIME24准确率7%（50%→57%）。
- 控制指标：相比条件长度控制（如Token/Step-Level），预算强制达到100%可控性，且保留正向扩展斜率。

模型性能：
- s1-32B（32B参数）：超越o1-preview（提升27% MATH得分）、媲美DeepSeek r1（需800K样本训练）。
- 成本对比：仅需1K样本+26分钟训练（16×H100），性能接近800K样本训练的强化学习模型。
可扩展性：
- 测试时计算量增加可使模型在GPQA博士级科学难题上提升至59.6%准确率（基线56.6%）。

颠覆性数据效率：
- 1K高质量样本即可激活预训练模型的深层推理能力，验证了“浅层对齐假设”（LIMA）。
- 数据筛选比堆量更关键：59K全量训练仅提升3%性能，但算力消耗达394 GPU小时（对比s1K仅7小时）。
测试时计算范式：
- 顺序扩展 > 并行采样：预算强制引导的链式推理性能增益显著高于多数投票（图4对比）。
- 理论支持：通过控制生成的令牌数，逼近蒙特卡洛树搜索效果，但无需奖励模型。