（2025|字节，RL，MoE，数学/科学推理，编程）Seed-Thinking-v1.5：利用强化学习推进卓越推理模型_seed-thinking-v1.5: advancing superb reasoning mod-CSDN博客

数学推理方面：在 AIME 2024 中获得 86.7 的分数，与 OpenAI 的 o3-mini-high 模型相当，并显著超过 o1 和 DeepSeek R1，但仍与 o3 和 Gemini 2.5 存在差距
竞赛编程方面：使用 Codeforces 作为基准，采用近 12 场比赛中的 pass@1 和 pass@8 指标，其中 pass@8 更能反映用户提交习惯。Seed-Thinking-v1.5 在这两个指标上均优于 DeepSeek R1，虽然仍落后于 o3。
科学推理方面：在 GPQA 任务中获得 77.3 分的成绩，接近 o3 水准。这一进步主要得益于数学训练的泛化能力，而非增加了特定领域的数据。
非推理任务方面：通过与 DeepSeek R1 的对比，Seed-Thinking-v1.5 在真实用户场景下的人类评估中表现出色，正面反馈率提高了 8%，表明其在处理复杂用户任务方面具有更强的能力。

2. 数据

Seed-Thinking-v1.5 构建了用于强化学习训练的数据集，主要分为两类：可验证问题 与 不可验证问题。还构建了高级数学基准集 BeyondAIME

该类数据具备确定性的标准答案，能用于自动验证，主要包括三类子任务：

1）STEM 数据

数据集中包含数十万道高质量的数学、物理和化学竞赛级问题，其中数学占比超过 80%。来源涵盖开源数据集、国内外竞赛题与私有题库。

通过数据清洗，最终形成约 10 万道清洗增强后的 STEM 题目。

2）编程数据

主要来源于高水平编程竞赛平台，题目配有清晰描述、单元测试与检查器脚本。训练中构建了本地离线评估集以代替在线提交验证。所有训练在自研代码沙箱中完成，确保执行稳定与反馈一致。

3）逻辑题数据

包括 22 类逻辑任务，如 24 点、迷宫、数独等。每类任务均构建了自动生成器与答案验证器，并能根据模型表现动态调节题目难度。共生成约 1 万道逻辑题目用于训练。

此类数据缺乏标准答案，需借助人类偏好建模评估质量，任务类型包括：

数据来源于 Doubao 1.5 Pro 的 RL 数据集。为提升数据质量，进行了如下筛选：

为弥补 AIME 每年仅 30 题、区分度不足的问题，研究团队构建了新基准集 BeyondAIME，包括 100 道高难度原创题：

该数据集显著提升了模型性能区分能力，为今后的数学推理研究提供重要基准。

对于可验证问题（如数学、代码、逻辑推理），设计了两种渐进式奖励建模方案：

Seed-Verifier
基于人类精心设计的原则，利用大模型评估 “问题、参考答案、模型答案” 三元组。判断标准不是字面完全一致，而是依据数学规则与计算原理来确定两者在数学意义上的等价性。它能准确反馈模型答案是否本质正确，即使表述不同。
Seed-Thinking-Verifier
模仿人类评判思路，给出详细推理路径，并与数学任务共同优化。它能够解析参考答案和模型答案之间的相似与差异，做出精细且一致的判断。相比 Seed-Verifier，它解决了三大核心问题：
- 奖励漏洞（Reward Hacking）：模型通过投机取巧获取奖励而不理解问题，Seed-Thinking-Verifier 的细致推理大大降低了漏洞。
- 预测不确定性：例如对于 2^19 和 524288 这样的格式差异，Seed-Verifier 可能返回不稳定的 YES/NO，而 Seed-Thinking-Verifier 能给出稳定一致的结果。
- 边缘案例失效：面对复杂场景，Seed-Thinking-Verifier 能通过推理判断有效应对。

对于不可验证问题（如创意写作、翻译、知识问答、角色扮演等），采用了：

其核心做法是：

实验发现，这种奖励模型在混合训练（即包含可验证和不可验证问题）场景下，能减少奖励信号之间的冲突，提高 RL 训练的稳定性。这主要归功于成对生成模型在缓解离群值打分方面的优势，避免与 verifier 模型之间产生显著的分布差异。

用 40 万个样本训练，其中：

工作流：

技术细节：

三类数据：

核心技术：

值预训练（Value Pretraining）：先用 SFT 策略数据更新 value 模型，保持一致性
解耦通用优势估计（Decoupled Generalized Advantage Estimation，GAE）：value 和 policy 用不同参数，独立更新
长度自适应 GAE：根据输出长度调整误差分布
动态采样：只选梯度有效的样本，避免 “垃圾样本” 拖累训练
Clip-Higher：PPO 中单独调大正向截断范围，鼓励模型探索
逐 token 损失（Token-level Loss）：每个 token 都参与损失计算，避免头尾失衡
正样本语言模型损失（Positive Example LM Loss）：专门强化高质量样本的学习