Seed-Thinking-v1.5:字节豆包新推理模型发布,200B参数战胜Deepseek

摘要

本文引入了Seed-Thinking-v1.5,能够在响应之前通过思考进行推理,从而提高了各种基准测试的性能。Seed-Thinking-v1.5在AIME 2024上获得86.7分,在Codeforces上获得55.0分,在GPQA上获得77.3分,展示了优秀的STEM和编码推理能力。除了推理任务,该方法在不同的领域表现出显着的泛化。例如,它在非推理任务上的胜率超过DeepSeek R1 8%,这表明它具有更广泛的适用性。与其他最先进的推理模型相比,Seed-Thinking-v1.5是一个相对较小的专家混合(莫伊)模型,具有20 B激活和200 B总参数。

高质量推理模型的开发有三个关键点:训练数据、RL算法和RL基础设施。我们在这三个领域作出了相当大的努力,我们将详细讨论这些问题。

  • 数据:对于SFT训练,与传统的后训练数据不同,推理模型依赖于思想链数据,这些数据明确地概述了逐步推理过程。作者的初步实验表明,太多的非CoT SFT数据会显着降低模型的探索能力。对于强化学习训练,作者将数据分为四类:STEM问题、代码相关任务、逻辑推理和非推理数据,如创意写作和对话。其中,逻辑推理数据对ARC-AGI基准测试的性能提升做出了显着贡献。数学数据表现出强大的泛化能力,可以在任务中带来广泛的性能提升。
  • 强化学习算法:推理模型的RL训练非常不稳定,经常崩溃,特别是对于没有SFT的模型。有时候,两次运行之间的得分差可以高达10分。强化学习系统的稳定训练对于推理模型的成功至关重要。为了解决这些长期存在的问题,作者开创了VAPO和DAPO-这两个不同的框架分别为行动者-批评者和政策梯度RL范式量身定制。VAPO现在是行动者-批评者方法中最先进的(SOTA)解决方案,而DAPO为没有批评者模型的策略梯度方法建立了一个新的SOTA结果。通过针对RL训练中的核心不稳定性问题,这两种方法都提供了健壮且一致的训练轨迹,有效地实现了推理模型的可靠优化。
  • 强化学习基础设施:基于大型语言模型(LLM)的强化学习系统的复杂性需要强大的基础设施来确保可扩展性、可再现性和计算效率。为了处理异构工作负载,作者解耦了流部署架构,该架构通过优先化的样本池异步处理部分轨迹生成,实现了比同步框架快3倍的迭代周期。该系统还支持具有自动故障恢复的混合精度训练,这对于在大规模RL运行期间保持稳定性至关重要。

-

论文地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf

github地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5 

 -

-

数据

强化学习训练数据由两个主要部分组成:有明确答案的可验证问题和没有明确答案的不可验证问题。该模型的推理能力主要来自第一部分,其可以推广到第二部分。

可验证问题

可验证的问题主要包括STEM问题与答案对,配备单元测试的代码问题,以及适合自动验证的逻辑推理。

STEM数据:作者的数据集由数十万个高质量的竞赛级问题组成,涵盖数学、物理和化学,其中数学占大多数(超过80%)。这些问题来自开源数据集、公开竞赛(国内和国际)和专有集合的混合。对于数据清理,作者首先消除不完整的陈述,不一致的符号或不明确的需求。对于剩下的问题,然后使用模型(Doubao-Pro 1.5)来生成多个答案。模型达到woN评分(N的最差值)为1的问题被认为太简单并被删除。最后,有些问题可能有不准确的参考答案。

作者使用SOTA推理模型为每个问题生成多个候选答案。如果模型的答案与参考答案不一致,但模型的输出显示出很高的内部一致性,或者只涉及非常少量的推理标记,作者认为参考答案是不正确的。然后,人类专家对这些问题进行人工验证,以确保参考答案正确。

作者还应用数据增强,使数据更适合学习和评估。具体来说,作者将多项选择题转换为填空或简答形式,以消除猜测的可能性,并更好地评估推理能力。然后修改某些数学问题,以确保答案尽可能是整数。经过数据清洗和增强,最终获得了10万个STEM问题的训练集。

代码数据:对于编码问题,作者优先考虑高质量和具有挑战性的算法任务,主要来自受人尊敬的竞争性编程比赛。首先过滤数据,以确保每个问题都包含一个全面的规范:一个清晰的问题描述,一组单元测试和一个检查器脚本。单元测试验证解决方案的功能正确性,而检查器脚本强制执行其他约束,如输出格式和边缘情况。作者还执行难度过滤,确保问题具有适当的复杂性和对现实世界算法推理的适用性。

对于评测,最准确的形式是将生成的代码提交给官方平台。然而,在强化学习过程中,实时提交是不可行的。因此,作者开发了一个离线评估集,以实现高效的局部验证。观察表明,线下评估结果与官方判决之间存在很强的相关性。所有的训练和评估问题都集成到一个内部环境中,从而可以直接执行和评估模型生成的代码。作者确保环境的稳定性和高吞吐量,以便在RL训练过程中提供一致和准确的反馈。

逻辑推理数据:作者收集了22个常用的研究任务,如24点,迷宫,数独等。对于每个任务,作者构建了一个数据生成器和一个答案验证器。数据生成器可以自动生成大量的训练和评估数据。此外,对于许多任务,可以配置生成问题的难度。在训练过程中,作者根据模型在某些任务上的表现,逐步调整训练数据的难度。答案验证器严格评估生成正确性,并可以作为奖励函数无缝集成到RL管道中。作者为RL训练生成了大约10k个难题。

-

不可验证的问题

非验证性问题主要包括需要基于人类偏好进行质量评估的非推理性任务,涉及创意写作、翻译、知识问答、角色扮演等任务,提示来源于豆宝1.5 Pro的RL训练数据。该数据集在不同领域有足够的覆盖范围。

作者丢弃低样本分数方差和低难度的数据。具体来说,作者使用SFT模型为每个提示生成多个候选项,然后使用奖励模型对其进行评分。具有低得分方差的样本被移除,因为它们表现出有限的采样多样性和最小的改进潜力。在豆宝1.5 Pro RL训练过程中,如果奖励分数提高超过一定阈值,则也会删除奖励。这是因为这样的数据可能过于简单或已经在数据集中大量表示。离线实验表明,过度优化这些样本会导致模型的探索空间过早崩溃,从而降低性能。

对于这些不可验证的数据,作者采用成对奖励方法进行评分和RL训练。通过比较两个样本的相对质量,这种方法有助于模型更好地理解用户偏好,提高生成结果的质量和多样性。

-

高级数学基准

目前的推理模型通常使用AIME作为评估数学推理能力的基准。然而,由于每年仅发布30个问题,其有限的大小可能导致高方差的评估结果,从而难以有效区分最先进的推理模型。为了更好地评估模型的数学推理能力,作者构建了一个新的基准数据集:BeyondAIME。具体来说,作者与数学专家合作,根据既定的竞赛形式开发原创问题。作者通过结构调整和情景重新配置系统地调整现有的竞争问题,确保不会发生直接重复。此外,作者确保答案永远不会是微不足道的值-例如在问题陈述中明确提到的数字-以减少模型在没有适当推理的情况下猜测正确答案的机会。

通过这种严格的筛选和策展过程,作者编制了最终的100个问题,每个问题的难度等于或大于AIME中最难的问题。与AIME类似,所有答案都保证为整数(不限于特定的数值范围),这简化了评估过程并使其稳定。

-

-

奖励模型

作为强化学习的一个重要组成部分,奖励模型定义了策略试图实现的目标。因此,设计良好的奖励机制对于在训练阶段为模型响应提供精确和可靠的奖励信号至关重要。对于可验证和不可验证的问题,我们采用不同的奖励建模方法。

可验证问题的奖励模型

作者设计了两个渐进式奖励建模解决方案,Seed-Verifier和Seed-Thinking-Verifier:

  • Seed-Verifier基于一套由人类精心编写的原则。它利用LLM强大的基础功能来评估由问题、参考答案和模型生成的答案组成的三元组。如果参考答案和模型生成的答案本质上相等,则返回“YES”;否则返回“NO”。这里的等价性不是字面上的精确匹配,而是基于计算规则和数学原理的更深层次的评估,证明两个答案传达了相同的数学含义。这种方法确保奖励信号准确地反映了模型的响应在本质上是否正确,即使措辞不同。
  • Seed-Thinking-Verifier的灵感来自人类的判断过程,通过细致的思考和深入的分析产生结论性的判断。为了实现这一点,作者训练了一个验证器,为它的评估提供了一个详细的推理路径。具体来说,作者将其视为可验证的任务,并将其与其他数学推理任务一起优化。该验证器可以剖析参考答案和模型生成答案之间的相似性和差异性,提供精确和细致入微的判断结果。

Seed-Thinking-Verifier显著地阐明了与Seed-Verifier相关的三个主要问题:

  • 奖励黑客:非思维模型可能会在没有真正理解问题的情况下利用漏洞获得奖励。Seed-Thinking-Verifier中详细的推理过程使得这种黑客攻击变得更加困难。
  • 预测的不确定性:在参考答案和模型生成的答案基本等同的情况下,其格式可能不同,例如,2^{19}与524288相比,种子验证器有时可能返回“YES”,其他时候返回“NO”。种子思维验证器通过彻底分析答案背后的推理提供一致的结果。
  • 边缘情况下的失败:种子验证器很难有效地处理某些边缘情况。Seed-Thinking-Verifier提供详细推理的能力使其能够更好地解决这些复杂的场景。

表1给出了上述两个验证器的性能。研究结果表明,Seed-Verifier难以有效地处理某些特定的案例,而Seed-Thinking-Verifier则表现出了卓越的准确判断能力。虽然后者的思考过程确实消耗了大量的GPU资源,但它所产生的精确而稳健的奖励结果对于赋予策略强大的推理能力至关重要。

不可验证问题的奖励模型

对于不可验证的问题,作者为RL训练训练了一个奖励模型。奖励模型训练数据与豆宝1.5 Pro中使用的人类偏好数据一致,主要包括创意写作和总结等类别。

为了提高奖励模型的有效性,作者采用了成对生成奖励模型,该模型评估两个响应的优越性,并使用“YES”或“NO”的概率作为最终的奖励分数。这种方法使模型能够在评分过程中直接比较响应之间的差异,从而避免过度关注不相关的细节。实验结果表明,这种奖励建模方法通过最大限度地减少两种不同类型的奖励建模范式之间的冲突,提高了RL训练的稳定性,特别是在涉及不可验证和可验证问题的混合训练场景中。这种改进可以归因于与传统奖励模型相比,成对生成奖励模型在减轻离群值分数生成方面的固有优势,因此避免了与验证者的分数分布的显著差异。

-

-

方法

监督微调

模型的训练过程从监督微调(SFT)开始。SFT阶段为后续的强化学习阶段奠定了坚实的基础。与从基础模型启动RL相比,SFT模型产生更多可读的输出,表现出更少的幻觉实例,并表现出降低的危害性。作者策划了一个SFT数据,包括40万个训练实例,其中包括30万个可验证问题和10万个不可验证问题。可验证的提示从RL训练集中随机抽样。不可验证的数据来自Doubao-Pro 1.5使用的SFT数据,涵盖创意写作,基于知识的QA,安全和函数调用等领域。

为了生成具有长CoT的高质量响应,作者采用了一种迭代工作流程,该工作流程集成了模型合成、人工注释和拒绝采样。最初,人类专家应用快速工程技术或与内部模型进行交互式对话,以产生具有各种推理模式的响应。在积累了数十个高质量的冷启动样本后,可以训练一个推理模型,长CoT作为一个更有能力的助手。然后,使用Seed-Verifier对该推理模型进行拒绝抽样。虽然这个工作流程主要应用于数学数据,但作者观察到它可以很好地推广到其他领域,例如编码,逻辑难题甚至创意写作。因此,对于其他领域,作者也进行了冷启动过程,然后拒绝采样,以产生详细的推理轨迹。

在训练期间,每个实例被截断为32000个令牌。作者使用上述数据对两个epoch的基础模型进行微调。

-

强化学习

作者开发了一个统一的强化学习框架,可以无缝融合来自广泛领域的数据。此集成包含三个数据类别:

  • 可验证的数据,从Verifier那里获得反馈。这种类型的数据允许根据已知标准直接验证模型的输出。
  • 一般数据,由奖励模型评分。奖励模型根据模型的响应与人类偏好的一致程度来分配分数。
  • 组合来自验证者和奖励模型两者的分数的特定数据类别。这种混合数据类型利用了验证和基于奖励的评估的优势。

在长期RLHF的背景下,作者遇到了一些挑战,如价值模型偏差和奖励信号的稀疏性。为了解决这些问题,作者借鉴了以前工作中的关键技术:

  • 价值预训练:作者从一个固定的策略(比如叫 πsft)里随机抽一些回答,然后用蒙特卡洛回报来更新价值模型。这个过程能保证一开始的价值模型和策略 πsft 完全对齐。保持这种对齐对模型保持连贯、有逻辑的思考模式(CoT)很重要。

  • 解耦的 GAE:作者用不同的广义优势估计(GAE)参数,比如价值模型用 λvalue = 1.0,策略用 λpolicy = 0.95,这样可以让价值模型无偏地更新,同时策略自己去平衡偏差和方差。这种分开更新能让模型训练更高效、更稳定。

  • 长度自适应 GAE:作者把 λpolicy 设为 1-\frac{1}{\alpha l},其中 α 是一个超参数,l是回答的长度。这样能保证在短序列和长序列里,时间差(TD)误差分布更均匀,模型在训练时就能更好地处理不同长度的序列。

  • 动态采样:作者用动态采样,把准确率是 1 或 0 的提示(prompts)都筛掉,只保留那些有有效梯度的。这样能防止在训练时梯度信号被削弱。

  • Clip-Higher:在近端策略优化(PPO)算法中,我们把上下剪切边界分开处理。具体公式是:L^{CLIP}(\theta )=\hat{E}_t[min(r_t(\theta )\hat{A}_t,clip(r_t(\theta ),1-\epsilon _{low},1+\epsilon _{high})\hat{A}_t)]。通过增大 \epsilon _{high},给低概率的词(token)更多上升空间。这样鼓励模型探索更多可能的回答,提升它发现新奇有效解的能力。

  • Token-level Loss:作者不是在整个回答上定义策略损失,而是在每个词(token)上定义。这样能解决词级对最终损失贡献不平衡的问题,确保每个词在训练过程中的影响都得到合理考虑。

  • Positive Example LM Loss:这个损失函数是为了在强化学习训练过程中,更好地利用正样本。作者在正样本上加了一个语言模型损失,系数是 \mu,公式是:L(\theta )=L_{PPO}(\theta )+\mu \ast L_{NLL}(\theta )。这个额外的损失项帮助模型更好地从正样本中学习,提升整体性能。

当作者从不同领域合并数据,并引入各种评分机制时,会面临不同数据领域之间的相互干扰问题。这种干扰可能来自难度水平的差异、奖励操纵的风险以及其他潜在因素。这些问题使得模型在所有能力上实现均匀且同时的提升变得极其困难。

为了解决这个问题,作者引入了在线数据分布适应(Online Data Distribution Adaptation)。这种方法将强化学习中固定的提示分布转变为一种适应性分布,使其更好地满足模型在训练过程中的需求。通过这种方式,作者能够最大程度地减少数据干扰的负面影响,并确保模型在不同能力上实现更平衡的提升。因此,模型能够在各种任务中更一致地提升性能。

-

-

基础设施

框架

训练框架使用HybridFlow编程构建。整个训练工作负载在Ray 集群上运行。数据加载器和RL算法在单个进程Ray Actor(单个控制器)中实现。模型训练和响应生成(推出)在Ray Worker Group中实现。Ray Worker Group公开了一组API(例如,generate_response/train_batch等),其通过工作组内的SPMD(单程序、多数据)运行繁重的训练/生成工作负载。单个控制器调用Ray Worker Group公开的各种API来构建训练流。HybridFlow编程抽象使RL算法思想的快速原型化成为可能,而无需担心复杂的分布式系统。

Seed-Thinking-v1.5通过混合引擎架构进行训练,其中所有模型都位于同一位置。这可以防止GPU在训练和生成之间切换时的空闲时间。在Long-CoT产生过程中,作者观察到严重的离散现象,这是由于不同提示之间的响应长度差异很大而造成的。这会导致生成期间的大量GPU空闲时间。为了减轻长尾响应生成的掉队者,作者提出了SRS(流推出系统)-一个资源感知的调度框架,战略部署独立的流计算单元,将系统约束从内存绑定到计算绑定。

-

流媒体推出系统(Streaming Rollout System)

SRS架构引入了流部署,将模型演化与运行时执行解耦,通过参数α实现了对开/关策略样本比率的动态调整:

  • 将完成率(α ∈ [0,1])定义为使用最新模型版本按策略生成的样本的比例
  • 将剩余的非完整段(1- α)分配给来自版本化模型快照的非策略卷展,通过异步延续独立资源上的部分生成进行无缝集成。

此外,作者还在环境交互阶段实现了动态精度调度,该调度通过具有误差补偿范围缩放的训练后量化来部署FP8策略网络。为了解决MoE系统中的令牌不平衡问题,作者实现了一个三层并行架构,结合TP(张量并行)逐层计算,EP(专家并行)与动态专家分配,和SP(序列并行)上下文分块。作者的内核自动调整器基于实时负载监控动态选择最佳CUDA内核配置。

-

训练系统

为了大规模有效地训练Seed-Thinking-v1.5模型,作者设计了一个混合分布式训练框架,该框架集成了高级并行策略,动态工作负载平衡和内存优化。下面我们将详细介绍推动系统效率和可扩展性的核心技术创新。

  • 并行机制:作者在训练 Seed-Thinking-v1.5 时,将张量并行(TP)、专家并行(EP)和上下文并行(CP)与全分片数据并行(FSDP)结合起来。具体来说,作者在注意力层使用了 TP/CP,在混合专家(MoE)层使用了 EP。

  • 序列长度平衡:不同数据并行(DP)节点上的有效序列长度可能会不平衡,导致计算工作量不平衡,降低训练效率。为了解决这个问题,作者使用了 KARP 算法,该算法可以重新排列一个小批量(mini-batch)内的输入序列,使它们在微批量(micro-batch)之间达到平衡。

  • 内存优化:作者采用了逐层重计算、激活卸载和优化器卸载等技术,以支持更大微批量的训练,从而抵消 FSDP 造成的通信开销。

  • 自动并行:为了实现最佳系统性能,作者开发了一个名为 AutoTuner 的自动调优系统。具体来说,AutoTuner 采用基于分析的方法来建模内存使用情况。然后,它估计各种配置的性能和内存使用情况,以获得最优配置。

  • 检查点:作者使用 ByteCheckpoint 来支持从不同分布式配置中恢复检查点,且开销极小。这使得用户能够弹性地训练任务,从而提高集群效率。

-

-

实验结果

自动评估结果 

表2列出了跨越数学、编码、科学和一般知识领域的各种任务的评估结果。对于数学基准任务,结果计算为32个模型响应的平均值,而GPQA任务结果计算为8个响应的平均值。对于Codeforces,我们报告avg@8和pass@8,因为pass@8更符合人类的提交习惯。所有其他任务的结果均为1个响应的平均值。

在数学推理方面,Seed-Thinking-v1.5在AIME 2024基准测试中达到了顶级性能,得分为86.7,与OpenAI的o3-mini-high模型的性能相匹配。然而,在最近的AIME 2025和高级BeyondAIME挑战中,Seed-Thinking-v1.5仍然落后于o3级别的性能。对于GPQA任务,Seed-Thinking-v1.5实现了77.3%的准确率,接近o3-mini-high的性能。在Codeforces等代码生成场景中,Seed-Thinking-v1.5几乎与Gemini 2.5 Pro的性能相当,但仍落后于o3-mini-high。值得注意的是,Seed-Thinking-v1.5在SimpleQA上展示了不太令人印象深刻的结果。值得强调的是,这个基准测试主要是作为一个面向内存的指标,其中性能与预训练的模型规模而不是真正的推理能力更密切相关。

-

人类评价结果

为了评估模型在主观任务上的性能,在自动化指标不足以捕捉细微差别的人类偏好的情况下,作者在一系列不同的非推理场景中进行了人类评估。作者的评估旨在衡量质量的关键维度,例如一致性,相关性,创造力和对以人为本的偏好的坚持,由一组领域专家评估员根据预定义的规则对Deepseek R1的模型输出进行评级。作者使用5点顺序量表,范围从0(非常差)到4(优秀),并在多轮会话提示下评估两种模型。每个完整的会话都用二元赢/输结果进行注释,以捕获整体用户体验,并为每轮分配一个0-4分。

Seed-Thinking-v1.5在评估的会话中实现了8.0%的整体胜率,表明在与以人为中心的偏好保持一致方面具有优势。此外,从创意写作到人文知识阐述,这种胜率在不同的场景中是一致的。图2显示了每轮级别的分数分布。

-

预训练模型的效果

剔除取样。拒绝采样已被确定为一种用于改善模型性能的有价值的技术[2]。我们进行了消融,以检查使用拒绝微调(RFT)模型初始化RL是否会影响结果。我们的结果表明,用RFT初始化的预训练模型在训练期间饱和得更快,但最终达到的性能低于未用RFT训练的模型,如表3所示。

在模型大小之间保持一致的算法排名。作者观察到,RL算法在不同大小和架构的不同模型上表现出一致的排序行为。如表4所示,Seed-150 B-MoE,一种在结构(MoE与密集模型)和大小方面均不同于Qwen-32 B的模型,表现出一致的排名。值得注意的是,这种一致性表明Qwen-32 B可以有效地作为研究RL算法的代理模型。

-

-

总结

作者引入了一个名为Seed-Thinking-v1.5的优秀推理模型,该模型在推理任务和非推理任务中都具有出色的性能。它利用先进的RL技术,稳定可靠地提高思维能力,在AIME 24上达到86.7%,在AIME 25上达到74.0%,在Codeforces上达到55.0%。在未来,作者计划研究更有效的RL配方,并探索更具挑战性的任务与思维模式,以推动模型的智能边界。


亲爱的朋友们,如果我的内容对你有帮助,觉得还不错,就给个赞吧!你的点赞是我最大的动力。要是喜欢我的风格,就关注我哦,我会持续输出更多优质内容。觉得有用的话,还可以收藏起来,方便以后查看。感谢支持,爱你们!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值