论文《s1: Simple test-time scaling》核心总结

论文《s1: Simple test-time scaling》核心总结


核心方法论
  1. s1K数据集构建

    • 筛选标准:从59K初始数据集通过三阶段过滤(质量→难度→多样性)得到1,000个高价值数学/科学推理样本。
    • 关键验证:相比随机采样/仅长序列选择,三阶段过滤性能提升高达30%(AIME24任务)。
    • 示例来源:涵盖概率论PhD考题、量化面试难题(如PuzzledQuant)、奥赛题等多领域问题。
  2. 预算强制(Budget Forcing)

    • 动态调整
      • 终止生成:若模型提前生成结束符,强制追加"Wait"触发重新思考(图3示例显示可修正错误)。
      • 延长窗口:通过允许扩展生成思考路径,平均提升AIME24准确率7%(50%→57%)。
    • 控制指标:相比条件长度控制(如Token/Step-Level),预算强制达到100%可控性,且保留正向扩展斜率。

验证结果
  • 模型性能
    • s1-32B(32B参数):超越o1-preview(提升27% MATH得分)、媲美DeepSeek r1(需800K样本训练)。
    • 成本对比:仅需1K样本+26分钟训练(16×H100),性能接近800K样本训练的强化学习模型。
  • 可扩展性
    • 测试时计算量增加可使模型在GPQA博士级科学难题上提升至59.6%准确率(基线56.6%)。

突破性贡献
  1. 颠覆性数据效率

    • 1K高质量样本即可激活预训练模型的深层推理能力,验证了“浅层对齐假设”(LIMA)。
    • 数据筛选比堆量更关键:59K全量训练仅提升3%性能,但算力消耗达394 GPU小时(对比s1K仅7小时)。
  2. 测试时计算范式

    • 顺序扩展 > 并行采样:预算强制引导的链式推理性能增益显著高于多数投票(图4对比)。
    • 理论支持:通过控制生成的令牌数,逼近蒙特卡洛树搜索效果,但无需奖励模型。

待解决问题
  • 长序列失效:超出上下文窗口(32K令牌)时性能显著下降,需结合REBASE并行方法补足。
  • 重复循环风险:过量"Wait"注入可能导致冗余循环,需优化终止策略(如温度调节)。

开源与影响
  • 资源开放
    • 代码/模型/数据:GitHub开源完整训练管线(https://github.com/simplescaling/s1)。
  • 应用潜力
    • 医疗推理(Huang et al. 2025已验证)、代码生成等需长链推理场景的直接适配。

总结:该论文通过极简数据工程与动态测试时控制,证明了小模型在高效微调下可匹敌顶级闭源模型,为轻量化高精度推理模型提供了新范式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值