字节-Seed-Thinking-v1.5-通过强化学习的推理模型

概览

技术突破总览

我们推出的**Seed-Thinking-v1.5**是新一代推理模型,其核心优势在于**响应前深度思考机制**(Thinking-Through-Before-Responding)。通过强化学习与混合专家架构的深度融合,该模型在以下关键领域实现突破:

  • 数学推理:AIME 2024测试得分86.7分,与OpenAI o3-mini-high模型持平

  • 编程竞赛:Codeforces pass@8指标达55.0%,接近Gemini 2.5 Pro水平

  • 科学推理:GPQA基准测试得分77.3%,逼近o3-mini-high模型

多领域泛化能力验证

1. 专业领域表现

评测维度

得分

对比模型

性能优势

AIME 2024

86.7

DeepSeek R1

+6.9%

Codeforces

55.0

DeepSeek R1

+10.0%

GPQA

77.3

DeepSeek R1

+5.8%

2. 通用任务突破

  • 非推理任务胜率:较DeepSeek R1提升8%

  • 逻辑推理:ARC-AGI测试得分39.9%,领先DeepSeek R1达21.6%

  • 指令遵循:Collie测试得分73.1%,是DeepSeek R1的2.1倍

架构创新与性能优化

  • 混合专家架构(Mixture-of-Experts, MoE)

    • 总参数200B,单次推理仅激活20B参数

    • 单位推理成本较DeepSeek R1降低50%

    • 支持动态路由机制,专家模块细分至12个专业领域

  • 训练体系升级

    • 采用**思维链强化学习**(Chain-of-Thought RLHF)

    • 开发**BeyondAIME**(超AIME难度数学题集)和**Codeforces**(编程竞赛新基准)两个内部评测集

    • 混合精度训练支持自动故障恢复,保障200B参数模型训练稳定性

技术生态构建

  • 开源计划:将公开BeyondAIME和Codeforces基准数据集,推动行业研究

  • 应用场景:已在火山引擎实现技术落地,4月17日开放API接口

  • 性能验证:通过人类评估实验,用户正向反馈率较DeepSeek R1提升8%

该模型通过"思考-验证-优化"的闭环机制,在保持轻量化架构的同时,实现了专业领域推理与通用任务处理的双重突破,为大模型的低成本高效推理提供了新范式。

1 Introduction

推理模型的整体发展趋势:在大型语言模型上的大规模强化学习驱动下,推理模型取得显著进步。OpenAI的o1系列、DeepSeek的R1、谷歌的Gemini 2.5和Anthropic的Claude 3.7成为最先进的模型代表,它们在逻辑推理、数学问题解决和代码生成等方面有实质性进展。这体现了推理模型向更结构化、高效和可扩展方向转变,当前研究重点在训练效率、长思维链和大规模强化学习上

Seed - Thinking - v1.5模型的性能表现

  • 数学推理

    • 在2024年美国数学邀请赛(AIME)中,Seed - Thinking - v1.5取得86.7分,与o3 - mini - high表现相当,超过o1和DeepSeek R1,显示出强大竞争力。

    • 由于AIME 2024区分度不足,构建了更具挑战性的BeyondAIME评估集,由人类专家新策划,减少通过记忆或猜测解题的可能。Seed - Thinking - v1.5超过o1和R1,但与o3和Gemini pro 2.5仍有差距,证明了新评估集的有效性。

  • 竞技编程

    • 采用Codeforces作为评估基准,不同于依赖Elo评分(含估计且不可直接比较)的先前工作,使用基于最近12场Codeforces竞赛的具体评估协议。

    • 报告pass@1和pass@8指标,pass@k表示模型在k次尝试内解决问题的能力。选择报告pass@8因其结果更稳定且符合用户实际提交模式。Seed - Thinking - v1.5在这两个指标上优于DeepSeek R1,但与o3有差距,评估集未来将公开。

  • 科学:在GPQA测试中,Seed - Thinking - v1.5得分为77.3,接近o3水平。这种提升主要源于数学训练带来的泛化能力增强,而非特定领域科学数据的增加。

  • 非推理任务:使用模拟现实用户需求的测试集评估。通过与DeepSeek R1的人工评估对比,Seed - Thinking - v1.5在不同场景下表现出色,用户积极反馈总体提升8.0%,体现其处理复杂用户场景能力的提升。

高质量推理模型发展的关键要素

  • 数据

    • SFT训练依赖思维链数据(明确逐步推理过程),初步实验表明过多非思维链SFT数据会降低模型探索能力

    • RL训练纳入四类数据:STEM问题、代码相关任务、逻辑推理以及非推理数据(如创意写作和对话)。逻辑推理数据显著提升ARC - AGI基准测试性能,数学数据泛化能力强,能带来跨任务性能提升

  • RL算法:推理模型的RL训练不稳定,常崩溃,尤其是无SFT的模型,两次运行分数差异可达10分。为解决该问题,开创了VAPO和DAPO框架,分别针对演员 - 评论家(actor - critic)和策略梯度(policy - gradient)RL范式。VAPO成为actor - critic方法的最先进解决方案,DAPO为policy - gradient方法建立新的最先进结果。

2 Data

2.1 强化学习训练数据

强化学习训练数据的总体构成:强化学习训练数据分为有明确答案的可验证问题和无明确答案的不可验证问题。模型的推理能力主要源于可验证问题,且能将从可验证问题中学习到的能力推广到不可验证问题上。

可验证问题

  • STEM数据

    • 数据来源:数据集包含几十万道高质量、竞赛级问题,涵盖数学、物理、化学领域,其中数学问题占比超80%。来源包括开源数据集、国内外公开竞赛及专有集合。

    • 数据清理:先剔除表述不完整、符号不一致或要求不明确的问题;再用豆包专业版1.5模型生成多个答案,剔除模型woN得分为1(即问题太简单)的问题;对于参考答案可能不准确的问题,用最先进推理模型生成多个候选答案,若模型答案与参考答案不一致但内部一致性高或推理token极少,则认为参考答案错误,由人类专家人工核查确保答案正确。

    • 数据增强:将选择题转换为填空题或简答题,消除猜测可能性,更好评估推理能力;修改数学问题,尽可能使答案为整数。最终得到10万道STEM问题的训练集,训练时用基于模型的Seed-Verifier评估答案正确性。

  • 代码数据

    • 数据来源:优先选取来自备受推崇的竞技编程竞赛的高质量、有挑战性的算法任务。

    • 数据筛选:确保每个问题有清晰问题描述、一组单元测试和检查脚本。单元测试验证解决方案功能正确性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据分析能量站

谢谢支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值