用于提升LLMs性能的多种后训练方法Post-Training：微调、强化学习和扩展策略

本文链接：https://blog.csdn.net/qq_36603091/article/details/146032349

参考论文《LLM Post-Training: A Deep Dive into Reasoning Large Language Models》

大型语言模型（LLMs）通过在大规模数据上进行预训练，已经在自然语言处理领域取得了显著进展。然而，尽管预训练提供了广泛的语言基础，但LLMs在推理能力、事实准确性、用户意图对齐和伦理考虑方面仍存在不足。为了进一步提升这些模型的性能，大家开始关注后训练技术，本文通过系统地覆盖微调、强化学习和扩展策略，提供了一个全面的视角。
在这里插入图片描述

LLM训练后优化方法概述

在这里插入图片描述

LLM集成强化学习流程

监督微调：用人工标注数据优化预训练模型格式和风格
奖励模型训练：收集输出标注偏好，训练映射分数模型
RL微调：用PPO等算法优化主模型，最大化奖励输出
奖励建模与对齐：依多种因素设计奖励函数引导输出
奖励建模策略
- 奖励建模使用基于排序的损失来学习一个从人类偏好到策略优化的函数。
- 显式与隐式奖励：前者直接定义，后者间接推断
- 结果与过程奖励：关注最终或中间推理结果
- 迭代自适应奖励：动态优化奖励和策略模型
策略优化算法
- 基础算法：ORPO基于偏好更新，PPO平衡探索稳定
- 反馈算法：RLHF用人类偏好，RLAIF以AI反馈替代
- 其他算法：TRPO约束更新，DPO融入偏好信号
纯RL优化实践
- 冷启动与训练：用少量数据微调，再进行RL训练
- 采样与微调：拒绝采样筛选，扩充训练集再微调
- 推理与对齐：用GRPO提升推理，二次RL对齐偏好
- 蒸馏部署：转移大模型能力到小模型实现高效部署

监督微调

微调类型
- 指令微调：在指令-响应数据集训练以遵循指令
- 对话微调：用聊天记录训练多轮对话上下文连贯
- CoT推理微调：生成推理过程提升复杂任务能力
- 领域特定微调：用领域数据训练以适应特定领域
- 蒸馏微调：小模型学习大模型生成的数据或推理
- 偏好对齐微调：用标注数据学习理想输出减少偏差
高效微调技术
- LoRA：注入低秩适配器减少计算开销
- Prefix Tuning：优化连续提示调整模型
- Adapters：添加轻量级模块进行高效微调

测试时缩放方法

在这里插入图片描述

推理优化方法
- 搜索类方法：束搜索选大概率路径，Best - of - N搜索采样选优
- 提示与解码：CoT提示分步推理，自一致性解码聚合答案
- 思维结构法：树状思维搜索推理树，图状思维灵活扩展
- 其他方法：置信度采样依置信度选择，搜索验证筛选答案

与预训练对比
性能成本差异：测试时缩放某些任务性能优且成本低
应用场景互补：预训练适用于新能力任务，两者结合更好

LLM训练后优化方法详解

1 强化学习大型语言模型

从方法论的角度来看，将强化学习整合到大型语言模型推理中通常遵循三个核心步骤：

监督微调（SFT）：以预训练的语言模型开始，随后在高质量、人工制作示例的监督数据集上进行精炼。这一阶段确保模型获得对格式和风格指南的基本合规性。
奖励模型（RM）训练：收集微调后模型生成的输出，并进行人类偏好标记。然后训练奖励模型，使其能够复制这些基于标签的分数或排名，有效地学习一个连续的奖励函数，该函数将响应文本映射到一个标量值。
强化学习微调：最后，通过一种例如PPO的政策梯度算法优化主要语言模型，以最大化奖励模型的输出。通过迭代这个循环，大型语言模型学会产生人类在关键维度如准确性、有帮助性和风格一致性方面认为更可取的回应。
奖励建模和对齐：开发了复杂的奖励函数——借鉴人类偏好、对抗性反馈或自动化指标——以引导模型产生连贯、安全且符合上下文的输出。这些奖励对于跨多步骤推理过程的有效信用分配至关重要。

早期将对齐大型语言模型与人类偏好的方法利用了经典强化学习算法，如PPO和信任区域策略优化（TRPO），它们通过在代理目标函数和KL散度正则化的约束下最大化预期累积奖励来优化策略。针对这些方法的可扩展偏好优化替代方案已经出现，如直接偏好优化（DPO）和组相对策略优化（GRPO），它们将对齐目标重新表述为人类标记偏好数据上的基于排名的对比损失函数。与依赖显式奖励模型的PPO和TRPO不同，批评网络、直接策略优化（DPO）和组策略优化（GRPO）通过分别利用对数似然比和组间奖励比较直接优化策略，无需显式地近似价值函数，同时保留偏好一致的学习动态。从基于经典强化学习的对齐到基于偏好的直接优化的转变引入了新的公式，如对比性排序损失、策略似然比正则化和分组优势估计，这些在后续章节中解释。

1.1 奖励建模

设 $\mathcal{X}$ 为可能的查询空间（例如，用户提示）。对于每个查询 $x\in\mathcal{X}$ ，我们收集一个或多个候选响应 $\left\{y_{j}\right\}_{j=1}^{m_{x}}$ ，其中 $m_{x}$ 是查询 x 的候选响应数量。通常，这些响应由不同的采样或提示条件下的语言模型或策略生成。人类注释者为这些响应提供偏好判断。这些可以采取多种形式：

成对偏好：对于两个响应 $y_{j}$ 和 $y_{k}$ ，在相同的查询 x 下，注释者指出是否偏好 $y_{j}$ 而不是 $y_{k}$ 。
排序：候选响应的部分或完全排序，例如 $y_{j_{1}}\succ y_{j_{2}}\succ\cdots\succ y_{j_{m_{x}}}$ 。

我们用 $\left\{r_{j}\right\}$ 表示每个响应或成对的这种人类偏好数据，其中 $r_{j}$ 可能是标签、排名或表示偏好水平的索引。整个数据集 $\mathcal{D}$ 则由 N 个带注释的例子组成：

$\mathcal{D}=\left\{\left(x^i,\left\{y_j^i\right\}_{j=1}^{m_i},\left\{\text{ preferences}^i\right\}\right)\right\}_{i=1}^N.$

在实践中，大量查询x从真实或模拟的用户请求中抽样。候选响应 $\left\{y_j\right\}_{j=1}^{m_x}$ 通过从基础语言模型采样或使用束搜索或其他解码策略生成。然后人类注释者根据预定义的标准（例如，质量、正确性、有帮助等）提供成对的或排名的反馈，指出哪些响应更好（或更差）。我们训练一个参数模型 $R_{\theta}(x, y)$ ，称为奖励模型，将每个（查询，响应）对 $(x, y)$ 映射到一个标量分数。目标是使 $R_{\theta}$ 反映一致性或偏好水平，以便：

$R_{\theta}:\mathcal{X}\times\mathcal{Y}\rightarrow R$

这里， $\mathcal{Y}$ 是所有可能响应的空间。

为了训练 $R_{\theta}$ ，我们使用数据集 $\mathcal{D}$ 中的人类偏好标签来定义一个合适的基于排名的损失函数，下面将进行解释。

I. 布拉德利-特里模型（成对比较）

对于成对的偏好，通常使用布拉德利-特里模型。假设数据集表明，对于一个给定的查询x，人类注释者更偏爱 $y_{j}$ 而不是 $y_{k}$ ，我们用 $y_{j}\succ y_{k}$ 表示。在布拉德利-特里的框架下， $y_{j}$ 被偏爱于 $y_{k}$ 的概率由下式给出：

$P\left(y_{j}\succ y_{k}\mid x;\theta\right)=\frac{\exp\left(R_{\theta}\left(x, y_{j}\right)\right)}{\exp\left(R_{\theta}\left(x, y_{j}\right)\right)+\exp\left(R_{\theta}\left(x, y_{k}\right)\right)}.$

我们通过最大化观察到的偏好的似然（或等价地最小化负对数似然）来训练 $R_{\theta}$ 。

$\mathcal{L}_{BT}(\theta)=-\sum_{\left(x, y_{j}\succ y_{k}\right)\in\mathcal{D}}\log P\left(y_{j}\succ y_{k}\mid x;\theta\right).$

II. 普莱克斯特-卢斯模型（排名）

当有m个反应的完整或部分排名可用时，即，

$y_{j_1}\succ y_{j_2}\succ\cdots\succ y_{j_m},$

普莱奇特-卢斯模型将这种排名的概率分解为：

$P\left(y_{j_1},\ldots, y_{j_m}\mid x;\theta\right)=\prod_{\ell=1}^m\frac{\exp\left(R_\theta\left(x, y_{j_\ell}\right)\right)}{\sum_{k=\ell}^m\exp\left(R_\theta\left(x, y_{j_k}\right)\right)}.$

其负对数似然值为：

$\mathcal{L}_{PL}(\theta)=-\sum_{(x,\text{ rank})\in\mathcal{D}}\sum_{\ell=1}^m\log\left(\frac{\exp\left(R_\theta\left(x, y_{j_\ell}\right)\right)}{\sum_{k=\ell}^m\exp\left(R_\theta\left(x, y_{j_k}\right)\right)}\right).$

在实践中，人们最小化所有偏好数据中基于排名的损失之和（或平均值）：

$\mathcal{L}(\theta)=\frac{1}{|\mathcal{D}|}\sum_{\left(x,\left\{y_j\right\},\text{ prefs}\right)\in\mathcal{D}}\mathcal{L}_{\text{ranking}}\left(\theta; x,\left\{y_j\right\},\text{ prefs}\right),$

奖励模型 $R_{\theta}(x, y)$ 提供一个标量奖励信号，反映人类偏好，这与常见的强化学习（RL）概念相连，特别是优势函数。奖励建模使用基于排名的损失函数，从人类偏好中学习用于策略优化的函数。

奖励建模类型

奖励可以分为显式和隐式方法。

1.1.1 显式奖励建模

显式奖励建模直接基于预定义规则、启发式方法或人类注释来定义奖励函数。这种奖励结构涉及来自人类或专门训练以近似人类判断的AI模块（例如，排名或成对比较）的直接、数值信号。这种方法可以产生精确的奖励估计，但可能耗时或在规模上成本高昂。示例用例包括“红队”练习，其中专家对有毒输出的严重程度进行评分，或者在必须由主题专家验证正确性的领域专业任务中。

1.1.2 隐式奖励建模

隐式奖励建模通过观察到的行为、互动或偏好信号间接推断奖励，通常利用机器学习技术揭示潜在的奖励结构。它从用户互动指标（如点赞、接受率、点击模式或会话参与时间）中获取信号。虽然它能够以最小的开销积累庞大的数据集，但这种方法可能会助长利用参与启发式方法的行为，从而牺牲内容质量或真实性。

奖励函数

为文本生成任务定义一个奖励函数是一个不适定问题。现有的大型语言模型（LLM）中的强化学习方法要么关注生成过程（过程奖励建模），要么关注结果（结果奖励建模），以塑造LLM行为。我们在下面解释这两种奖励建模范式。

1.1.3 结果奖励建模

衡量最终结果（例如，最终答案是否事实正确或解决用户查询）。该模型易于实施，但可能对如何得出结论提供的洞察有限。在短响应任务中普遍存在，用户主要关心的是最终声明的正确性或简洁性。对于长响应任务，基于结果的奖励可能导致信用分配问题，即哪些特定行动或状态导致了特定的奖励结果。

1.1.4 过程奖励建模

在中间推理步骤中分配反馈，激励连贯、逻辑一致且结构良好的思维链。这种方法对于涉及数学推导、法律论证或代码调试的任务特别有价值，在这些任务中，到达答案的路径与最终声明同样重要。在这样的问题中，对单个步骤的奖励鼓励透明度和稳健的逐步推理。然而，它需要更复杂的注释过程，例如，需要“金标准”推理步骤或部分信用评分。过程奖励可以与结果奖励结合，形成强烈的多阶段训练信号。带最后一步聚合的优先级奖励模型（PRM）优于普通奖励模型（ORM）。

1.1.5 采用自适应奖励模型的迭代强化学习

自适应奖励模型是一种训练方法，旨在通过迭代改进大型语言模型（LLMs）的性能。具体来说，它通过不断精炼奖励模型和策略模型来实现这一目标。这种方法解决了在大规模强化学习训练中可能出现的奖励操纵和奖励模型漂移的挑战，即当奖励模型与期望目标出现偏差时。强化学习过程被划分为多个迭代周期，模型按周期进行训练。每次迭代后，根据最新的模型行为和人类反馈更新奖励模型。奖励模型不是静态的，而是随着时间的推移而演变，以更好地符合人类偏好和任务要求。这种适应性确保随着模型的改进，奖励信号保持准确性和相关性。重复迭代过程，直到模型性能达到平稳或达到期望的标准。奖励模型和策略模型共同进化，每次迭代都使它们更加接近最优对齐。

1.2 策略优化

一旦我们得到了一个捕捉人类偏好的训练有素的奖励模型 $R_0(x,y)$ ，我们就可以将其整合进强化学习框架中，以优化策略 $\pi_{\phi}$ 。本质上，我们用 $R_0(x,y)$ 替换（或增强）环境原有的奖励信号，以便智能体专注于生成人类对于给定查询 $x$ 更偏好的响应 $y$ 。

在典型的强化学习符号表示法中：

这里的每个状态可以解释为下一个标记（在语言建模中）的部分对话或部分生成过程。
每个动作 $a$ 是即将生成的下一个标记（或下一块文本）。
政策 $\pi_{\phi}(a\mid s)$ 是关于下一个标记的条件分布，由 $\phi$ 参数化。

我们寻求找到 $\phi$ ，以最大化在用户查询下期望的奖励，并设 $y\sim\pi_{\phi}(\cdot\mid x)$ 为生成的响应。我们的目标是解决：

$\max\limits_{\phi},E_{x\sim\mathcal{X}}\left[ E_{y\sim\pi_{\phi}(\cdot\mid x)}\left[ R_{\theta}(x,y) \right] \right].$

这意味着，平均而言，在从策略 $\pi_{\phi}$ 中抽取的用户查询 $x$ 和响应 $y$ 上，我们希望奖励模型得分 $R_{\theta}(x, y)$ 尽可能高。

策略优化

在这里插入图片描述
图3：PPO、GRPO和DPO 的比较。突出显示了策略模型、参考模型、奖励以及相应的损失函数的优化流程。
现代算法（例如，PPO、GRPO、TRPO）依赖于策略梯度。图3展示了这些主要的强化学习框架的结构化比较。每个框架都建立在不同的策略学习、参考建模和奖励计算原则上。回想一下，优势函数 $A (s, a)$ 量化了动作 $a$ 比基线预期回报 $V (s)$ 好多少。在高层次上，我们更新策略 $\pi_{\phi}$ 的方向是增加具有正优势的动作用户的 $\pi_{\phi}(a\mid s)$ ，并减少负优势动作的 $\pi_{\phi}(a\mid s)$ 。形式上，时间 $t$ 的优势 $A_{t}$ 可以写为：

$A_t=Q\left(s_t, a_t\right)-V\left(s_t\right)$

其中， $Q\left(s_{t}, a_{t}\right)$ 是从状态 $s_{t}$ 采取动作 $a_{t}$ 开始，预期未来的回报（包括 $R_{\theta}$ 在内的未来奖励之和）。

在使用奖励模型 $R_{\theta}$ 时：

我们将 $R_{\theta}(x, y)$ 解释为对生成的响应 $y$ 的即时或最终奖励。
因此，策略的未来回报考虑了后续标记由 $R_{\theta}$ 给予积极评分的可能性。
优势函数仍然捕捉到特定生成步骤与基线性能 $V\left(s_{t}\right)$ 相比有多好。

奖励模型学习相对偏好而非绝对分数。这避免了需要校准人类评分，并专注于成对比较。

1.2.1 比率比偏好优化（ORPO）

最简单的方法 ORPO 直接根据成对人类偏好优化策略。不是首先学习一个单独的奖励模型然后运行标准的强化学习，ORPO 更新策略以增加相对于不喜欢的响应，更受人类喜爱的响应的可能性。关键思想是查看比率比：

$\frac{\pi_{\phi}\left(y_{j}\mid x\right)}{\pi_{\phi}\left(y_{k}\mid x\right)},$

其中， $y_{j}$ 是给定查询 $x$ 的首选响应， $y_{k}$ 是次选响应。

成对偏好概率。在许多直接偏好方法（例如，布拉德利-特里风格）中，人们会写出

$P_{\phi}\left(y_{j}\succ y_{k}\mid x\right)=\sigma\left(\ln\frac{\pi_{\phi}\left(y_{j}\mid x\right)}{\pi_{\phi}\left(y_{k}\mid x\right)}\right)=\frac{1}{1+\exp\left(\ln\frac{\pi_{\phi}\left(y_{k}\mid x\right)}{\pi_{\phi}\left(y_{j}\mid x\right)}\right)},$

其中， $\sigma(\cdot)$ 是 Logistic （sigmoid）函数。直观地说，如果策略 $\pi_{\phi}$ 为 $y_{j}$ 分配的概率高于 $y_{k}$ ，则优势比 $\pi_{\phi}\left(y_{j}\mid x\right)$ $\frac{\pi_{\phi}\left(y_{j}\mid x\right)}{\pi_{\phi}\left(y_{k}\mid x\right)}$ 大于1，使得在模型下 $y_{j}$ 更有可能是首选结果。

在ORPO中，通常为数据集中所有对 $\left\{\left(x, y_{j}\succ y_{k}\right)\right\}$ 定义一个负对数似然损失：

$\mathcal{L}_{ORPO}(\phi)=-\sum_{\left(x, y_{j}\succ y_{k}\right)\in\mathcal{D}}\log\left(P_{\phi}\left(y_{j}\succ y_{k}\mid x\right)\right).$

将逻辑形式替换后得到：

$\mathcal{L}_{\text{ORPO}}(\phi)=-\sum_{\left(x, y_{j}\succ y_k\right)\in\mathcal{D}}\log\left(\frac{\pi_{\phi}\left(y_{j}\mid x\right)}{\pi_{\phi}\left(y_{j}\mid x\right)+\pi_{\phi}\left(y_{k}\mid x\right)}\right),$

这也可以解释为每对比较中最大化正确（首选）标签的对数优势比。通过优势比进行解释。通过将每个正确（首选）标签视为对优势比 $\frac{\pi_{\phi}\left(y_{j}\mid x\right)}{\pi_{\phi}\left(y_{k}\mid x\right)}$ 的约束，ORPO推动策略增加其在 $y_{j}$ 上的概率质量，同时减少其在 $y_k$ 上的概率质量。当在对数空间中观察时：

$\ln\left(\frac{\pi_{\phi}\left(y_{j}\mid x\right)}{\pi_{\phi}\left(y_{k}\mid x\right)}\right),$

较高的值对应于选择 $y_{j}$ 而不是 $y_{k}$ 的可能性更大。因此，最小化 $\mathcal{L}_{\text{ORPO}}(\phi)$ 使 $\pi_{\phi}$ 与人类标记的偏好保持一致。

ORPO在结合多个奖励信号时可能灵活性较低。

1.2.2 在大型语言模型中的近端策略优化（PPO）

策略优化的一个流行方法是PPO，这是一种适应于使大型语言模型与人类反馈一致的策略。给定一个由 $\theta$ 参数化的策略 $\pi_{\theta}$ 和一个奖励函数 $R$ ，PPO通过优化一个平衡探索和稳定性的剪辑目标来更新策略。具体来说，如果 $r_{t}(\theta)=$ $\frac{\pi_{\theta}\left(a_{t}\mid s_{t}\right)}{\pi_{\theta_{ref}}\left(a_{t}\mid s_{t}\right)}$ $\frac{\pi_{\theta}\left(a_{t}\mid s_{t}\right)}{\pi_{\theta_{ref}}\left(a_{t}\mid s_{t}\right)}$ 表示在状态 $s_{t}$ 中采取动作 $a_{t}$ 的概率比，剪辑后的PPO目标是：

$\mathcal{L}^{PPO}(\theta)=E_{t}\left[\min\left(r_{t}(\theta) A_{t},\operatorname{clip}\left(r_{t}(\theta), 1-\epsilon, 1+\epsilon\right) A_{t}\right)\right],$

其中， $A_{t}$ 是优势函数的估计量， $\epsilon$ 是一个超参数，用于控制与之前策略的允许偏差。 $A_{t}$ 是基于奖励和学习到的价值函数使用广义优势估计（GAE）计算得出的。PPO 的剪辑目标限制了更新后的策略分布可以从原始策略中偏离的程度。这种缓和作用避免了语言生成的灾难性变化，并保持了训练的稳定性。

带KL惩罚的策略优化

在使用PPO进行强化学习微调期间，策略 $\pi$ 被优化以在接近基模型 $\rho$ 的同时最大化奖励。修改后的奖励函数包括一个KL散度惩罚：

$J(\pi)=E_{(x, y)\sim\mathcal{D}}[r(x, y)-\beta KL(\pi(\cdot\mid x)|\rho(\cdot\mid x))]$

其中， $\beta$ 控制惩罚强度。KL项 $\operatorname{KL}(\pi|\rho)$ 防止过度优化到代理奖励 $r (x, y)$ （即奖励操纵）。

KL惩罚确保策略保持基础模型的语言连贯性并避免退化输出。

1.2.3 人类反馈强化学习（RLHF）

RLHF 通过直接的人类偏好信号来精炼大型语言模型，使其更符合人类期望。该过程涉及三个主要步骤。首先，使用高质量标记数据对预训练模型进行SFT训练，以建立强大的语言和事实能力。其次，使用人类注释的生成响应排名来训练奖励函数 $R$ ，使其能够预测偏好并提供一个标量奖励信号。第三，通过使用人类提供的偏好分数（或排名）来塑造 $R$ ，从而指导策略更新，在RLHF 流程中使用PPO。这确保模型优先考虑与人类首选行为一致的输出。在噪声或部分奖励信号条件下表现出的鲁棒性能使PPO非常适合文本生成任务，这些任务中常见的动作空间较大且奖励定义精细。

1.2.4 人工智能反馈强化学习（RLAIF）

RLAIF 是RLHF的替代方法，用人工智能生成的反馈代替人类注释。RLAIF不依赖人类标记的偏好，而是采用一个次级的高能力语言模型来生成偏好标签，然后用这些标签来训练奖励模型。该奖励模型指导基于强化学习的微调目标模型。RLAIF通过消除对人工注释者的需求，降低了数据收集的成本和时间。它使大规模模型对齐成为可能，无需大量人工干预，同时保持高性能和对齐。实证研究显示，RLAIF 是RLHF的一个可扩展且高效的替代方案，使其成为强化学习驱动的语言模型优化的一个有前景的方向。

剪辑机制限制策略更新保持在安全的信任区域内，这在处理复杂的高维动作空间时至关重要。

1.2.5 信任区域策略优化（TRPO）

TRPO 是另一种广泛使用的策略优化方法，在PPO之前提出，并与其共享基本目标：提高强化学习更新的稳定性。TRPO在优化策略更新的同时确保它们保持在由KL散度衡量的受限信任区域内。

TRPO不是像PPO那样使用剪辑目标，而是通过对以下优化问题进行求解来强制对策略更新的硬约束：

$KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ \max_{\theta} …$

受限于：

$E_{t}\left[D_{KL}\left(\pi_{\theta_{old}}(\cdot\mid s_{t})|\pi_{\theta}(\cdot\mid s_{t})\right)\right] \leq \delta.$

其中， $\delta$ 是一个超参数，用于控制新策略与旧策略的偏离程度。

与使用剪辑方法近似约束的PPO不同，TRPO直接解决一个受限优化问题，确保每次更新不会使策略空间移动太远。然而，解决这个受限问题需要计算成本高昂的二阶优化技术，如共轭梯度法，适用于大规模模型，如大型语言模型（LLMs）。实际上，由于PPO的简单性、易于实现以及在像强化学习中的人类反馈强化（RLHF）这样的大规模应用中具有可比的性能，PPO更受青睐。然而，TRPO仍然是深度强化学习中稳定策略优化的一个重要理论基础。

1.2.6 直接偏好优化（DPO）

DPO 是一种最近提出的方法，用于从人类偏好数据训练大型语言模型，而无需采用传统的强化学习循环（如使用PPO的RLHF）。DPO不是学习一个单独的奖励函数然后运行策略梯度更新，而是直接将人类偏好信号整合到模型的训练目标中。因此，与上述PPO目标不同，DPO构建了一个直接提高选定（偏好）响应（ $y$ ）概率的目标。

在单一的对数似然框架下，同时降低较不偏好响应的概率（ $y^-$ ），所有这些都在单一的对数似然框架下进行。DPO损失不是用剪辑来限制策略变化，而是使用“赢”与“输”响应的对数概率之差。这明确地将用户的偏好编码到更新后的参数中。

这里， $\pi_{\theta}$ 是可学习的策略， $\pi_{\text{ref}}$ 是一个参考策略（通常是SFT训练的模型）， $\sigma(\cdot)$ 是S形函数， $\beta$ 是一个缩放参数， $\mathcal{D}_{\text{train}}$ 是一个三元组数据集 $\left(x,y^{+},y^{-}\right)$ ，其中 $y^{+}$ 是相对于 $y^{-}$ 更偏好的输出。

$KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ \mathcal{L}^{D…$

关键的见解是，大型语言模型（LLM）可以被视作一种“隐藏的推理器”，其训练数据对于自身日志概率的不充分反映了一个选择相对于另一个选择的优越性。通过直接调整对数似然，使得更受偏好的响应相对于不那么受偏好的响应而言，可以简化许多基于强化学习（RL）的方法的复杂性（例如，优势函数或显式裁剪）。

优势函数 $A_{\phi}=V_{\phi}\left(s_{t+1}\right)-V_{\phi}\left(s_{t}\right)$ 量化了每一步的贡献，这对于识别关键推理错误至关重要。这种粒度在DPO中丢失了，DPO将整个轨迹统一处理。

用于分布数据的困惑度过滤。为了确保DPO训练数据是在分布上（与 $\rho$ 对齐），使用困惑度来过滤响应。响应 $y=\left(y_{1}, y_{2},\ldots, y_{T}\right)$ 的困惑度定义为：

$\operatorname{PP}(y)=\exp\left(-\frac{1}{T}\sum_{i=1}^{T}\log P_{\rho}\left(y_{i}\mid y_{<i}\right)\right),$

其中 $y_{i}$ 是第 $i$ 个标记。只保留困惑度低于阈值的响应（例如，由 $\rho$ 生成的响应的第95百分位数）。

优势函数是确定每一步哪些动作（标记选择）比基线更好的核心概念。

1.2.7 离线推理优化（OREO）

OREO 是一种离线强化学习方法，旨在通过优化软贝尔曼方程来增强大型语言模型的多步推理能力。与依赖配对偏好数据的DPO不同，OREO使用基于最终结果（例如，推理链的正确性）的稀疏奖励，并联合训练一个策略模型 $\pi_{\theta}$ 和一个价值函数 $V_{\phi}$ 以进行细粒度信用分配。核心目标是最小化软贝尔曼方程中的不一致性：

$V_{\phi}\left(s_{t}\right)-V_{\phi}\left(s_{t+1}\right)=r\left(s_{t}, a_{t}\right)-\beta\log\frac{\pi_{\theta}\left(a_{t}\mid s_{t}\right)}{\pi_{ref}\left(a_{t}\mid s_{t}\right)},$

其中， $s_{t+1}=f\left(s_{t}, a_{t}\right)$ 是下一个状态， $r$ 是稀疏奖励， $\beta$ 控制着KL正则化。策略损失和价值损失分别为：

$KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ \mathcal{L}_{V…$

其中， $\mathcal{L}_{\text{reg}}$ 对偏离 $\pi_{\text{ref}}$ 的偏差进行惩罚，而 $\alpha$ 用于平衡正则化。

OREO的显式价值函数支持测试时束搜索（例如，选择高价值的推理步骤）和迭代训练，失败的轨迹会精炼策略。这与DPO隐式价值函数不同，后者缺乏逐步的信用分配。

OREO的计算成本随轨迹长度和价值模型训练而扩展。虽然对数学/代理任务有效，但其泛化到更广泛的领域（例如，编码）需要验证。迭代训练还要求仔细的数据策展以避免过度拟合失败模式。

1.2.8 组相对策略优化（GRPO）

GRPO 通过消除对单独价值函数的需求简化了PPO框架。相反，GRPO通过对同一问题的多个采样输出的平均奖励来估计基线。GRPO的主要贡献在于它不需要单独的价值模型（评论家模型），而是从一组采样的LLM输出中估计基线奖励。这显著降低了内存使用并稳定了策略学习。该方法也与奖励模型的训练方式很好地一致，即通过比较不同的LLM生成输出而不是预测绝对值。

对于每个问题 $q$ ，GRPO从旧策略 $\pi_{\theta}^{old}$ 中采样一组输出 $\left\{o_{1}, o_{2},\ldots, o_{G}\right\}$ 。奖励模型用于对组内每个输出进行评分，得出奖励 $\left\{r_{1}, r_{2},\ldots, r_{G}\right\}$ 。通过减去平均值并除以标准差来对奖励进行归一化：

$\bar{r}_{i}=\frac{r_{i}-\operatorname{mean}(r)}{\operatorname{std}(r)}.$

输出中每个标记的优势 $\hat{A}_{i, t}$ 被设置为标准化奖励 $\bar{r}_{i}$ 。

GRPO首先对问题 $q\sim P(Q)$ 采样，然后从 $\pi_{\theta}^{old}(O\mid q)$ 中采样 $G$ 个输出 $\left\{o_{i}\right\}_{i=1}^{G}$ 。定义每个输出的目标为

$KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ J\left(o_{i},\…$

那么，GRPO的目标就变成

$J_{G R P O}(\theta)=E_{q\sim P(Q)}\left[\frac{1}{G}\sum_{i=1}^{G} J\left(o_{i},\theta, q\right)\right],$

其中概率比被定义为

$r_{\text{ratio}, i, t}\triangleq\frac{\pi_{\theta}\left(o_{i, t}\mid q, o_{i,<t}\right)}{\pi_{\theta}^{old}\left(o_{i, t}\mid q, o_{i,<t}\right)}$

其中， $\epsilon$ 是一个类似于PPO的裁剪超参数，而 $\beta$ 调整KL散度惩罚项，以鼓励新策略 $\pi_{\theta}$ 不要过度偏离参考策略 $\pi_{\text{ref}}$ ，通常这是初始监督微调（SFT）模型。GRPO 可以以两种模式应用：结果监督和过程监督。

结果监督：只在每次输出的末尾提供一个奖励。输出中所有标记的优势 $\hat{A}_{i, t}$ 被设置为标准化奖励 $\bar{r}_{i}$ 。

$\bar{r}_{i}=\frac{r_{i}-\operatorname{mean}(r)}{\operatorname{std}(r)}.$

过程监督：在每个推理步骤结束时提供一个奖励。每个标记的优势 $\hat{A}_{i, t}$ 计算为以下步骤的标准化奖励之和：

$\hat{A}_{i, t}=\sum_{\operatorname{index}(j)\geq t}\bar{r}_{i,\operatorname{index}(j)},$

其中，索引 $(j)$ 是第 $j$ 步的结束标记索引。

总体而言，GRPO 通过利用组级优势，作为 DeepSeekR1 中经典actor-critic 框架的有效替代方案，从而降低训练成本，同时不牺牲区分候选响应间细微差别的能力。

细粒度的逐步奖励使模型能够有效识别并强化高质量响应，提升复杂、多步骤推理任务的整体表现。

1.2.9 多样本比较优化

不是仅依赖成对的比较，多样本比较优化方法同时比较多个响应，以促进多样性并减少偏见。具体来说，给定一组针对查询 $x$ 的响应 $\left\{y_{1}, y_{2},\ldots, y_{n}\right\}$ ，观察到排名 $y_{1}>y_{2}>\cdots>y_{n}$ 的概率由乘积决定

$P\left(y_{1}>y_{2}>\cdots>y_{n}\right)=\prod_{i}\frac{e^{R\left(x, y_{i}\right)}}{\sum_{j} e^{R\left(x, y_{j}\right)}}.$

在此公式中，每个响应 $y_{i}$ 都在所有其他响应的上下文联合评估，确保比较不是孤立的成对事件，而是更广泛排名框架的一部分，该框架有助于捕捉更微妙的偏好并减少潜在的偏差。

1.3 基于纯强化学习的大型语言模型优化

DeepSeek提出了两个主要模型：DeepSeek-R1-Zero和DeepSeek-R1。

DeepSeek-R1-Zero 采用纯粹的强化学习方法，不包括任何SFT（自回归语言模型）。
DeepSeek-R1 结合了冷启动数据并应用了一个多阶段训练流程。

该方法包括几个步骤：在这里插入图片描述
收集冷启动数据，执行强化学习训练，进行SFT，使用蒸馏技术将知识转移到较小的模型，以及解决特定挑战，如语言混合和可读性。这个多阶段流程确保了模型的稳健性和与人类偏好的对齐，而蒸馏则使较小模型的部署更加高效，且不会显著损失性能。

1.3.1 冷启动强化学习阶段

过程从一个冷启动强化学习阶段开始，在此阶段，收集少量精选的数据来微调一个初始的或基础的模型。在此初步微调之后，通常通过像GRPO这样的算法进行强化学习训练，直至收敛。冷启动阶段对于在全面强化学习训练之前稳定模型至关重要，防止可能由纯粹基于驱动的更新引起的不稳定性。

冷启动数据准备注重捕捉人类可读的推理模式，以防止纯粹由强化学习（RL）驱动的更新带来的不稳定性。此步骤生成具有<推理过程>和<摘要>字段一致的CoT风格示例，通常涉及数千个精心策划的样本。结构化的CoT格式和一致的字段确保模型推理输出的清晰性和稳健性，减少错误并提高可解释性。

在强化学习训练前的CoT示例为推理任务提供了更坚实的基础，从而产生更健壮且可解释的输出。

1.3.2 拒绝采样和微调

此概念也用于WebGPT。一旦强化学习稳定，就会采用拒绝采样机制生成高质量响应，随后对这些响应进行正确性、清晰度和其他质量指标的筛选。然后将这些筛选后的响应与额外数据集混合，生成一个新的、更大的监督式微调语料库。拒绝采样确保只有高质量输出用于进一步训练，从而提升模型的整体性能和可靠性。

在高风险推理任务中强化学习收敛后，使用拒绝采样筛选大量生成的输出，以扩展训练集。这些新生成的推理示例（数量可能高达数十万）与现有的监督式微调数据混合，创建一个规模庞大的组合数据集（通常约有 $800 k$ 个样本）。

拒绝采样和数据集扩展显著增强了模型对一般任务的覆盖范围，同时保持了其推理熟练度。

1.3.3 以推理为导向的强化学习

以推理为导向的强化学习利用GRPO，从当前策略中抽取一组输出，并为每个输出计算奖励和优势。奖励可以通过基于规则的检查来计算，例如，确保数学或编程任务中的正确解决方案，强制使用结构化的CoT标签，并惩罚不希望的语言混合。GRPO基于组的采样和奖励计算确保模型优先考虑高质量、结构化的输出，增强其推理能力。

1.3.4 第二阶段强化学习用于人类对齐

第二阶段强化学习通过引入额外的奖励信号和提示分布，使模型与更广泛的人类偏好（有帮助、无害、创造性等）进一步对齐。第二阶段强化学习确保模型与人类价值观保持一致，使其更具多功能性和情境意识。在结合数据集上重新训练基础模型后，可以进行第二轮强化学习，使模型更紧密地与人类偏好对齐（例如，对于有帮助和无害）。这一阶段强化学习微调模型，以更好地与人类价值观保持一致，确保输出不仅准确而且符合上下文。

1.3.5 用于小型模型的蒸馏

最后，使用蒸馏技术将主模型的精炼能力转移到更小的架构中，从而实现更高效的部署而不牺牲太多性能。它允许较小的模型继承先进的推理能力，使其能够在具有挑战性的基准测试中具有竞争力，而无需全尺度强化学习训练的计算成本。最后，蒸馏扮演了关键角色：表现最佳的模型DeepSeek-R1 作为较小架构（例如，参数从15亿到700亿的Qwen或Llama系列）的教师模型。这种转移使较小的模型能够继承先进的推理能力，使其能够在具有挑战性的基准测试中具有竞争力，而无需承担全尺度强化学习训练的计算成本。

蒸馏使先进的推理能力民主化，让较小的模型在降低计算开销的同时实现有竞争力的性能。

2 大型语言模型的监督式微调

在这里插入图片描述

如上图所示，微调构成了大型语言模型训练后配方的基本组成部分。在本节中，我们总结了不同类型的大型语言模型微调机制。

2.1 指令微调

在指令微调中，模型在精选的指令（提示）和响应（完成）对上进行训练。主要目标是指导大型语言模型（LLM）准确且有帮助地遵循用户提供的指令，无论任务领域如何。这通常涉及编译大量多样、涵盖多种任务类型（例如，总结、问答、分类、创意写作）的指令-响应数据集。诸如T0、FLAN、Alpaca、Vicuna和Dolly等模型展示了通过微调指令，LLM可以在零样本或少样本任务上超越基础模型，这得益于其增强的指令遵循能力。

2.2 对话（多轮）微调

一些LLM经过对话风格的微调，以更好地处理多轮对话。与上述指令微调不同，这里的数据采用连续对话（多轮对话）的形式，而不是单个提示-响应对。在这种方法中，训练数据由包含多个用户查询和系统回应的聊天转录组成，确保模型学会跨轮次保持上下文并产生连贯的回复。像LaMDA和ChatGPT这样的模型强调，经过对话微调的LLM会感觉更加互动且具有上下文意识。虽然对话微调可能与指令微调重叠（因为许多指令以聊天格式出现），但专门的对话数据通常会产生更自然、多轮的用户体验。

2.3 思维链（CoT）推理微调

思维链（CoT）推理微调教会模型生成逐步推理轨迹，而不仅仅是最终答案。通过揭示中间理由或想法，CoT微调可以提高复杂任务（例如，数学文字题、多跳问答）的可解释性和准确性。在实践中，CoT微调使用监督性推理注释（通常由专家手工制作）来展示解决方案的展开过程。值得注意的早期工作包括思维链提示和自我一致性，它们最初将这一想法应用于提示；随后的努力（例如，思维链蒸馏）将其适应于完整的微调或学生-教师范式。这些努力还扩展到了多模态领域，例如，LlaVA-CoT和LlamaV-o1，在这些领域中，图像、问答和CoT推理步骤被用于大型语言模型微调。

2.4 领域特定（专门化）微调

当大型语言模型需要在特定领域（例如，生物医学、金融或法律）表现出色时，会使用领域特定微调。这里，采用经过策划的领域相关文本和带标签示例的语料库来微调大型语言模型。例如，BioGPT和BiMediX专门用于生物医学文献，FinBERT用于金融文本，ClimatGPT用于气候和可持续性，CodeT5用于代码理解。在这些领域中，监督性微调通常包括分类、检索或问答任务，使用领域特定数据，确保模型的参数适应于该领域的专门语言和概念。领域特定的微调也扩展到了视觉语言模型，例如在遥感图像上微调的、在医学成像方式上的、在时空视频输入上的，以及适应于图表理解的。

2.5 基于蒸馏的微调

有时使用大型“教师”模型来生成标记数据或理由，较小的“学生”模型则对这些数据进行微调，这通常被称为知识蒸馏。在大型语言模型（LLMs）的背景下，CoT 蒸馏是一个例子，其中一个强大的教师 LLM 生成中间推理步骤，而学生 LLM 被微调以复现最终答案和推理链。逐步蒸馏在最终答案旁边生成描述性理由，通过与小数据集进行蒸馏来训练较小的模型。这种方法可以产生更轻、更快且保留了教师大部分性能的模型，即便是在零样本或少样本任务中。

2.6 偏好与对齐的SFT

虽然强化学习通过人类反馈（RLHF）不是纯粹的监督学习，但它以监督的偏好或对齐微调阶段开始。该阶段使用人类标记或人类排名的例子来教导模型什么是期望的输出与不希望看到的输出（例如，安全的与不具毒性的）。通过在这些明确的偏好上进行训练，模型变得更加符合用户价值观，减少了有害或离题的完成内容。像InstructGPT这样的工作展示了在奖励模型训练和强化学习更新开始之前，监督偏好数据的重要性。

2.7 高效微调

完全微调大型语言模型（LLM）可能在计算和内存上都很密集，特别是当模型规模增长到数千亿个参数时。为了应对这些挑战，参数高效微调（PEFT）技术引入了一小组可训练的参数或可学习的提示，同时保持大部分模型权重冻结。像LoRA、前缀微调和适配器这样的方法通过在特定层注入轻量级模块（或提示），显著减少了内存占用。

图4展示了这些技术如何适应一个更广泛的生态系统，该系统涉及LLM的系统级优化、数据管理和评估策略。特别是，PEFT方法可以与剪枝方法结合使用，以进一步最小化内存使用和计算开销，使得能够在较小的GPU甚至消费级硬件上进行微调。例如，QLoRA 将4位量化与低秩适应统一在一起，而BitsAndBytes 提供8位优化器，使大型语言模型训练在受限环境中更具实用性（表2）。

此外，这些PEFT方法仍然需要监督数据来指导适应过程，但可训练参数数量的减少使其更适用于领域特定或任务特定的数据集。这对于专业领域（例如，医学或软件开发）尤其有价值，因为数据可能有限或注释成本高昂。如表2所示，PEFT（HF）将多种此类方法（LoRA、前缀调整等）整合到一个单一库中，简化了在研究和生产环境中的部署。

结合高效的调整设计如LoRA和QLoRA以及系统和数据优化（图4），可以在不进行昂贵的全微调的情况下，实现成本效益高的领域特定文本生成等任务的LLM适应。

3 测试时缩放方法

在这里插入图片描述

量化并在推理过程中增强推理能力，通常无需模型更新。上图呈现了TTS方法的分类，根据其底层技术对其进行分类。

3.1 束搜索

束搜索最初在语音识别的背景下引入。作为一种序列模型的解码策略而受到重视，并后来被用于神经机器翻译和语音系统。随着大型语言模型（LLM）的流行，该算法已被用于许多文本生成任务中的近似搜索。

束搜索的概念类似于剪枝广度优先搜索，其中每一步都保留概率最高的前N个部分序列（即“束”），丢弃概率较低的路径。通过限制束宽（N），它管理指数级的搜索空间，同时旨在找到一个接近最优的序列。这些束在每次解码步骤中被扩展，以找到多个可能的路径。在推理LLM中，这样的路径允许我们系统地并行探索多条推理链，专注于最有希望的路径。这确保了考虑高可能性推理步骤，与贪婪解码相比，可以提高找到正确且连贯解决方案的机会。它传统上用于翻译、摘要和代码生成等任务，这些任务的目标是一个高度可能的正确序列。

虽然现代大型语言模型通常偏好随机采样（例如）为了促进生成文本的多样性，束搜索仍然是结构化推理问题的一个有价值的技巧。例如，“思维树”框架允许插入不同的搜索算法来探索可能的“思维”或推理步骤树；其中一个实现使用束搜索（束宽为b）在每个推理步骤中保持b个最有希望的状态。在这里，束搜索被用来系统地探索数学谜题和规划问题等任务的解决步骤，剪除不太有希望的推理分支，从而提高模型的解决问题准确性。当一个人希望模型在模型学习到的分布下输出最可能的一个推理路径或答案时，束搜索仍然是测试时推理的一个强有力的基线。

3.2 N个最佳选择（拒绝采样）

N个最佳（BoN）搜索生成N个候选输出（通常通过采样），然后根据选定的标准（例如，奖励模型或模型自身的似然性）选择最佳的一个。从概念上讲，这是拒绝采样的一个应用：抽取多个样本并拒绝除评分最高的结果之外的所有结果。不同于束搜索，后者逐步扩展并剪枝部分假设，BoN简单地独立地采样完整解决方案，允许更大的多样性，但代价是更高的计算成本。束搜索系统地追求最可能的序列，而BoN可能通过蛮力采样捕捉到高质量但概率较低的解决方案。

束搜索（适用于较难问题）在低计算预算下表现优于N选最佳采样，而N选最佳在较易任务中扩展性更好。

在大语言模型推理过程中，N选最佳用于提升正确性或对齐度，而无需重新训练模型。通过采样多个答案并选择最佳候选项（例如，通过奖励模型或检查器），N选最佳有效提高了代码生成任务的准确性。

N选最佳易于理解且易于实现，几乎无需超参数调整，其中N是在推理时可以调整的参数。在强化学习环境中，N选最佳采样可作为一种底线探索机制，即生成多次展开，根据学到的奖励选择最佳结果，并继续执行，尽管会增加计算开销。OpenAI的WebGPT通过奖励模型使用N选最佳来选择最佳响应，取得了强大的问答性能。N选最佳还用作一种简单的对齐方法，与其他训练后技术（例如RLHF和DPO）具有高度竞争力。研究表明，当由足够健壮的奖励模型指导时，N选最佳可以接近或匹配RLHF的结果。替代方案如投机性拒绝基于此理念，利用更好的奖励模型提高效率。研究还强调了如果用于N选最佳的（代理）奖励函数不完美或如果N参数变得非常大而产生的奖励操纵问题。

使用束搜索还是N选最佳的过程奖励模型取决于任务的难度和计算预算。

3.3 计算最优扩展

计算最优扩展策略（COS）是一种动态方法，旨在LLM推理过程中高效分配计算资源，优化准确性而无需不必要的开支。该方法不是对所有输入应用统一的采样策略，而是将提示分为五个难度等级——从易到难——无论是通过利用神谕难度（真实成功率）还是模型预测的难度（例如，来自偏好排序模型的验证器分数）。一旦分类，策略就会调整计算资源的分配：较简单的提示会经历顺序细化，模型迭代改进其输出来提高正确性；而较难的提示则触发并行采样或束搜索，探索多种响应变化以提高找到正确答案的可能性。这种双重方法平衡了探索（针对有挑战性的输入）和细化（针对接近正确的响应），确保每单位计算努力达到最佳性能。值得注意的是，这种方法在保持相同性能的同时，计算使用量仅为传统N个最佳采样方法的四分之一。关键的洞察在于，通过匹配计算策略与问题难度，它避免了在简单案例上的资源浪费，同时确保复杂任务有足够的采样多样性。本质上，它充当了LLM推理的“智能恒温器”，根据输入复杂性动态调整计算努力，从而实现大规模语言模型的更高效和更具成本效益的部署。

COS通过优化平衡序列/并行计算，在最佳N个基线方法上实现了4倍的效率提升。在简单/中等难度问题上，束搜索+修订版的表现优于更大的模型。

3.4 思维链提示

思维链（CoT）提示引导大型语言模型（LLMs）生成中间推理步骤，而不是直接跳到最终答案。通过将问题分解为逻辑子步骤，CoT挖掘了模型执行多步推理的潜在能力，显著提升了数学文字题、逻辑谜题和多跳问答任务的表现。

魏等人展示了CoT在算术和逻辑任务上的有效性，显示出与直接提示相比的巨大提升。小岛等人引入了零样本CoT，揭示了即使添加像“让我们一步步思考”这样简单的短语也能在足够大的模型中触发连贯推理。后续工作（例如，王等人，2022）结合CoT和基于采样的策略（自一致性）以获得更高的准确性。如第5.4节所述，CoT格式的数据也已被用于SFT，并且被证明有助于重塑模型响应，使其更加逐步。

微调模型以顺序修正答案，利用之前的尝试。顺序修正擅长于较简单的问题，而并行采样（探索）则有益于较难的问题。

3.5 自一致性解码

自一致性是由王等人引入的一种解码策略。作为简单贪婪解码的替代方案，它用于思维链提示。该方法建立在采样一个问题多个不同推理路径的想法之上，并且是首个表明对那些路径进行边缘化可以显著提高算术和推理问题的准确性的研究。换句话说，它使模型能够以多种方式进行思考，然后信任共识，这在许多推理场景中提高了正确性。

自洽方法通过采样模型中的一组多样化推理链（通过提示工程鼓励不同的条件随机场，并使用温度采样），然后让模型为每个链输出最终答案。该方法不是信任单一的链，而是选择在这些多个推理路径中最一致的答案，有效地是在消除潜在推理后的多数投票或最高概率答案。其直觉是，如果一个复杂问题有一个唯一正确的答案，不同的有效推理路径应该收敛到那个相同的答案。通过汇总许多链的结果，模型可以“决定”哪个答案得到最多的支持。在实际应用中，可能会对例如一个数学问题采样20个条件随机场，并查看哪个最终答案出现得最频繁；然后将那个答案作为模型的输出。这种方法将一次性条件随机场过程转变为一个集成方法，模型在其中交叉验证其答案。它在需要推理多样性的算术和常识推理任务中特别有用。

在特定场景下，测试时计算资源较小的模型可以胜过更大规模的模型。

自洽性通常与其他方法结合使用，例如，采样多条链，然后对最常见的答案应用验证器。其优势在于不需要新的训练，只需额外的采样，使其成为从大型语言模型（LLMs）获得更可靠答案的流行测试时扩展策略。它还启发了其他变体，例如，通用自洽性扩展了原始思想（仅适用于单一最终答案上的多数投票），应用于更一般的生成任务，如摘要和开放式问答。

3.6 思维树

思维树框架通过允许模型分支成多个可能的思想序列，而不是遵循单一的线性链，从而推广了思维链方法。因此，它将语言模型推理问题表述为树搜索，借鉴了受人类解决问题启发的经典人工智能搜索方法。思维树将中间推理步骤视为搜索树中的“节点”，并使用语言模型从给定状态扩展可能的下一步（思想）。模型不是采样一个长的推理路径，而是探索分支思想的树，并能进行展望和回溯。在每一步，大型语言模型可能会生成几个候选的下一个思想，启发式或价值函数评估每个部分解决方案状态。然后搜索算法（例如，深度优先、广度优先、束搜索）导航这棵树，决定进一步探索哪些分支。

这种方法允许系统地探索不同的推理策略：如果某条路径通向死胡同，模型可以返回早期状态并尝试不同的分支（不同于标准的CoT，后者坚持一条推理线索）。实际上，ToT是一种迭代提示程序，模型生成想法、评估它们，并改进其方法，模仿人类可能如何用心理映射出解决问题的各种方法。在这里插入图片描述
该图比较了大型语言模型（LLMs）中的推理策略，从直接提示（Direct Prompting）开始，这种策略不经过推理直接将输入映射到输出，发展到更结构化的方法。思维链（CoT）引入了逐步推理，而自我一致性（CoT-SC）则生成多个CoT路径并选择最频繁的答案。多个CoT独立探索多样的推理路径。思维树（ToT）将推理结构化为一棵树，使得可以进行回溯和精炼，而思维图（GoT）则通过动态聚合和连接思想来概括这一过程。图例解释了诸如评分、回溯和自我精炼等关键机制，这对于优化推理效率至关重要

ToT特别适用于需要多步骤和战略探索的复杂问题，如谜题、规划任务或游戏，并通过系统搜索解空间来超越更简单的CoT方法。它提供了一个灵活的框架——人们可以根据任务插入各种生成策略（例如采样与提示）和搜索算法（广度优先搜索、深度优先搜索、A*、蒙特卡洛树搜索）。尽管如此，计算更为繁重的思维树（ToT）表明，为探索备选方案而分配额外的“思考时间”（计算资源）可以显著提高推理和规划性能。它催生了后续研究，旨在改进或利用它进行更好的推理，例如，已将多智能体系统与ToT结合：不同的LLM“智能体”并行生成思想，一个验证智能体剪除错误的分支，从而提高了单一智能体ToT的准确性。

大型语言模型的推理时计算可以超越扩展模型参数，特别是在数学问题等具有挑战性的推理任务中表现尤为突出。

3.7 思维图

思维图（GoT）框架通过基于图的结构而非严格的层次树，使推理过程更加灵活高效，从而扩展了ToT。两种方法在思维表示上有所不同：在ToT中，推理的每一步都被结构化为具有固定父子关系的树中的节点，而GoT则将思维表示为图中的节点，使得依赖关系和相互连接更具适应性。

就思维扩展策略而言，ToT遵循传统方法，每一步生成多个思维候选者，使用基于树的搜索策略进行探索，并根据启发式方法进行剪枝，然后选择最优路径。相比之下，GoT采用基于图的思维扩展，允许思维动态互联。这使得三种关键转换成为可能：聚合（将多个解决方案合并为一个统一的答案）、细化（随时间迭代改进思维）和生成（产生多样化的候选者）。GoT不是通过严格的层级结构进行导航，而是使用体积度量优先考虑思维，并优化地探索路径，减少不必要的计算。

ToT的一个关键限制是，一旦分支被丢弃，其回溯就被限制，不会重新考虑。GoT通过允许迭代细化来弥补这一点，可以重新访问、修改和改进之前的思维。这种迭代特性在复杂推理任务中特别有用，因为初始思维可能需要调整。此外，通过合并部分解决方案来减少冗余计算，GoT的计算效率显著提高。

《权力的游戏》增强了问题解决的效率和适应性，使其在需要复杂推理的任务上优于《汤姆·索亚历险记》。

3.8 基于信度的采样

在基于信度的采样中，语言模型生成多个候选解决方案或推理路径，然后根据模型对每个结果的自信度来优先考虑或选择。这可以通过两种方式发生：(a) 选择：生成N个输出，并选择对数概率最高的一个（即模型最自信的输出）。这本质上是基于概率的N选最佳——模型选择它认为最可能正确的答案。(b) 引导探索：在探索推理树或多步骤解决方案时，使用模型的标记概率来决定扩展哪个分支（优先探索信心较高的分支）。换句话说，模型的概率估计作为启发式指导搜索解决方案空间。与纯随机采样相比，基于信度的方法使过程偏向于模型认为是正确的方向，有可能减少在低可能性（通常也是错误的）路径上的无效探索。

在推理时已经纳入了基于信度的策略，例如，用于大型语言模型生成的基于树的搜索会为每个可能的完成（叶子节点）分配一个信心分数。算法根据这些信心分数按比例采样叶子节点，以决定扩展哪些路径。

同样，一些推理方法使用模型对答案的估计可能性来决定何时停止或是否提出后续问题——本质上如果模型的置信度低，它可能会触发进一步的推理（一种自我反思的形式）。基于置信度的选择也用于集成设置中：例如，大型语言模型可能生成多个答案，然后一个次级模型评估每个答案正确的置信度，选择置信度最高的答案。这在类似医学问答的任务中进行了探索，其中一个大型语言模型提供一个答案和一个置信度分数，只有高置信度的答案被信任或返回。

3.9 对抗验证器搜索

这种在大型语言模型中的验证方法通过生成多个候选响应并使用自动化验证系统选择最佳答案来提高答案质量。这种方法从增加预训练计算量转移到优化测试时计算量，允许模型在推理过程中通过结构化推理步骤或迭代细化“思考更长时间”。该方法涉及两个主要步骤：

生成：模型（或称“提议者”）产生多个答案或推理路径，通常使用高温采样或多样化解码等方法。
验证：验证器（例如，奖励模型）根据预定义的标准评估这些候选项，如正确性、连贯性或与期望流程的一致性。验证器根据其评估重点进行分类：
- 结果奖励模型（ORM）：仅判断最终答案（例如，数学解答的正确性）。
- 过程奖励模型（PRM）：评估推理步骤（例如，思维链中的逻辑连贯性），提供细致的反馈以剪除无效路径。

在这一范式下，有几种技术得到应用，增强了基于验证的优化：

N选最佳采样：生成多个答案并通过验证器（ORM/PRM）对它们进行排名，选择得分最高的答案，使其成为提高答案正确性的简单而有效的方法。
带PRM的束搜索：追踪得分最高的推理路径（束），并早期剪除低质量步骤，类似于思维树方法，在推理路径探索中平衡了广度和深度。
蒙特卡洛树搜索：通过扩展有希望的推理分支、模拟展开和反向传播分数来平衡探索和利用，提供了搜索深度与验证信心之间的最佳权衡。
多数投票（自一致性）：汇总来自多个样本的答案并选择出现频率最高的答案，避免了显式验证器，这在多次响应间的一致性表明正确性的环境中效果良好。

ORM适用于正确性为二元（对/错）且易于评估的任务，而PRM在多步推理中很有用，确保中间步骤遵循逻辑进程。

3.10 通过改进实现自我提升

这种方法指的是大型语言模型通过自我评估和迭代修正来增强其输出的能力。该过程使模型能够动态地完善其回应。

在推理过程中，不单单依赖预训练权重。一个值得注意的方法是自我完善，其中大型语言模型生成一个初始响应，对其进行批评，然后基于自我生成的反馈来完善输出。这一迭代过程持续进行，直到模型达到一个令人满意的结果。这些技术已被证明能提升各种任务的性能，包括数学推理和代码生成。该过程遵循以下关键步骤：

初始生成：模型产生一个答案或推理路径。
自我批评：模型审查自身的响应，识别错误、不一致或改进领域。
完善：模型根据批评调整其响应并生成一个改进版本。
迭代：过程重复进行，直到输出达到预定义的质量阈值或停止改进。

另一种方法称为自我润色，其中模型逐步完善给定问题，使其更易理解和解决。通过重新措辞或重构问题，模型增强其理解并提供更准确的解决方案。自我润色涉及逐步完善问题陈述，使其更易理解和解决。模型首先为了更好的清晰度而重新措辞或重构问题，然后将复杂查询分解成更简单的子问题，并完善模糊输入以确保准确理解。通过在解决问题之前重构问题，模型提高了其理解力并生成更准确的解决方案。

自我提升方法论代表了大型语言模型（LLM）优化的范式转变，强调主动推理和内部反馈而非静态预训练。通过迭代自身的响应，模型在广泛的应用程序中实现了更高的一致性和准确性。

3.11 蒙特卡洛树搜索

蒙特卡洛树搜索（MCTS）基于蒙特卡罗模拟在游戏树搜索中的应用。它在游戏中取得成功而声名鹊起，特别是它通过由策略和价值网络指导的可能走法搜索，在2016年驱动了AlphaGo。这以及将其应用于其他棋盘和视频游戏，展示了MCTS在不确定性下进行序列决策的力量。

MCTS是一种随机搜索算法，通过执行许多随机模拟来构建决策树。它最著名的是在游戏状态中找到好的走法，但它可以应用于任何我们可以模拟结果的问题。该算法迭代地：

选择：根据启发式方法（如UCT，选择具有高置信上界的节点）从根中选择一条路径。
扩展：从该路径的末端扩展一个新节点（之前未访问过的状态）。
模拟：从这个新状态模拟一次随机展开以获得一个结果（例如，游戏中的胜利或失败，或者某种奖励）。
回溯：将结果向上回溯至树中更新节点的值，并指导未来的选择。

重复这些模拟数千次，可以将搜索集中在树中最有希望的枝干上。

本质上，MCTS通过随机采样来评估不同动作序列的潜力，逐渐将搜索偏向于平均结果较好的那些。在大型语言模型推理中，我们可以将文本生成视为一个模型决策过程，并用它来探索不同的后续内容。例如，在给定问题（根）的情况下，每一个可能的下一步推理步骤或答案都是一个动作；模拟可能意味着让大型语言模型继续得出最终答案（可能带有一些随机性），奖励可能是答案是否正确。通过重复这样做，MCTS能够识别出哪一系列思路或答案具有最高的经验成功率。MCTS用于推理的吸引力在于它能够通过智能采样而不是详尽无遗地处理大型搜索空间，并且它自然融合了不确定性和探索性。

训练验证器对中间步骤（通过蒙特卡洛模拟）进行评分，而不仅仅是最终答案。

最近的努力已经将MCTS与大型语言模型集成在一起，以解决复杂的推理和决策任务。一个例子是使用MCTS进行查询规划：蒙特卡洛思维搜索，其中大型语言模型被引导提出一系列子问题以找到答案。Jay等人使用了一种基于MCTS的算法，称为“蒙特卡洛推理器”，它将大型语言模型视为一个环境：每个节点是一个提示（状态），每条边是一个动作（例如，要问的一个特定问题或要采取的步骤），并使用随机模拟来评估结果。

这种方法使系统能够高效地探索可能的推理路径空间，并选择高回报的答案路径，在科学问答任务中优于朴素采样。同样，MCTS已被应用于与大型语言模型（LLMs）一起进行代码生成——算法通过使用模型提出代码补全并进行测试来探索不同的代码路径，以找到正确的解决方案。另一项工作是结合多个LLM和MCTS，将每个模型的输出视为一个分支，并使用奖励模型模拟结果。早期结果显示，基于MCTS的推理可以解决单次或贪婪方法经常遗漏的问题，尽管需要更多的计算资源。缺点是，MCTS可能比直接采样或束搜索慢得多，最近的研究正在通过提高效率来解决这个问题（例如，通过状态合并）。总的来说，MCTS将规划算法的优势带入了LLM推理，并使得大型语言模型能够通过模拟展开“预见”未来，从而做出更明智的推理选择，就像它在游戏玩法中对人工智能所做的那样。

测试时计算并不是预训练的1对1替代品，但在许多情况下提供了一个可行的替代方案。

3.12 动作链思考推理

大型语言模型在推理任务中表现出色，但在推理时严重依赖外部指导（例如，验证器）或大量采样。现有的方法如CoT缺乏自我纠正和自适应探索的机制，限制了它们的自主性和泛化能力。Satori引入了一种两阶段的训练范式，该范式通过首先调整模型的输出格式，然后通过自我改进来增强其推理能力。在第一阶段（格式调整），模型被暴露于由一个多智能体框架生成的大量10K合成轨迹中，该框架包括一个生成器、一个评论家和一个奖励模型。这种监督式微调帮助模型使用元动作令牌以特定的推理格式产生输出，尽管它可能仍然难以泛化到这些例子之外。在第二阶段（通过强化学习自我改进），模型采用带有重启和探索策略的PPO，这使它能够从中途步骤重新开始，无论这些步骤是否正确，以完善其推理过程。模型根据基于规则的正确性、反思奖励以及基于偏好的结果奖励模型反馈的组合获得奖励，从而激励分配更多的计算资源给较难的问题，并使得在测试复杂任务时能够进行扩展推理。

多智能体框架和先进的微调策略越来越多地被探索用于增强大型语言模型（LLMs）的推理能力。多智能体大型语言模型训练（MALT）引入了一种结构化方法，其中生成、验证和完善步骤分布在专门的智能体上，允许迭代自我纠正和改进推理链。同样，优化偏好一致性仍然是确保LLMs既安全又有用的关键挑战。像双阶乘偏好优化（BFPO）这样的方法将强化学习人类反馈强化（RLHF）目标重新构建为单一的监督学习任务，减少人工干预的同时保持稳健的对齐。在基于文本的推理之外，像多模态思维可视化（MVoT）这样的多模态方法通过整合视觉表征扩展了CoT提示，显著提升了空间推理任务的性能。这些进步突显了对于结构化多智能体协作、安全意识优化和多模态推理的需求日益增长，以解决大型语言模型（LLM）推理中的根本限制。

3.13 预训练与测试时缩放

预训练和TTS是两种不同的提升大型语言模型性能的策略，它们在计算成本和效果上各有权衡。预训练涉及缩放模型参数或增加训练数据以增强能力，需要大量的初期计算投资。相比之下，TTS优化了推理时计算（如迭代细化、基于搜索的解码或自适应采样），允许在不修改基础模型的情况下提升性能。

从性能与成本的角度来看，TTS在简单易中间任务（例如，数学基准测试）上取得了与14倍大模型相当的结果，同时在计算密集场景中将推理成本减少了4倍的浮点运算次数。然而，对于最具挑战性的任务或在推理计算资源受限的情况下，预训练仍然更为优越，因为较大的预训练模型本质上编码了更深层次的推理能力。

当推理令牌（Y）有限时（例如，自我改进设置），一个较小的、具有测试时计算的模型可以在简单/中等难度的问题上胜过大14倍的模型。

就使用场景而言，文本到语音（TTS）适用于推理预算灵活或基础模型在任务中已表现出合理竞争力的情况。相反，预训练对于需要根本新能力的任务（例如，在新领域进行推理）至关重要，仅靠推理时优化可能不足以满足需求。

两种方法之间存在明显的权衡。TTS降低了前期培训成本，使其成为灵活、即时优化的有吸引力的选择，但在推理时需要动态计算分配。另一方面，预训练虽然初始成本高，但保证了一致性能且无需额外的运行时开销，使其成为大规模API部署或对延迟敏感的应用的理想选择。总体而言，TTS和预训练在性质上是互补的。未来的大型语言模型系统可能会采用一种混合方法，较小的基模型通过预训练掌握必要知识，而TTS则通过自适应、按需计算动态增强响应。这种协同作用使得大规模模型的部署更具成本效益且高效。

选择预训练以获得基础能力，并通过测试时扩展实现准确的上下文感知细化。

3.14 总结与未来展望

测试时缩放方法（TTS）为大型语言模型（LLMs）的推理能力提供了一种灵活且高效的优化途径。与预训练相比，TTS无需修改模型参数，而是通过动态分配计算资源（如束搜索、N选最佳采样、蒙特卡洛树搜索等）来提升模型在特定任务上的表现。这些方法在简单到中等难度的任务中表现出色，甚至在计算资源有限的情况下，较小的模型可以通过TTS技术胜过更大的模型。

然而，TTS并非万能解决方案。对于需要深层推理能力或全新领域知识的任务，预训练仍然是更可靠的选择。预训练通过扩展模型参数或增加训练数据，从根本上增强了模型的能力，尽管其前期成本较高，但能够提供一致且稳定的性能。

未来的研究方向可能会集中在以下方面：

混合方法：结合预训练和TTS的优势，构建更高效的大型语言模型系统。较小的基模型通过预训练掌握核心知识，而TTS技术则在推理时动态优化输出。
自适应计算：开发更智能的计算资源分配策略，根据任务难度动态调整TTS技术的使用，以最大化效率和性能。
多模态推理：将TTS技术扩展到多模态任务中，例如结合视觉和文本信息进行推理，以提升模型在复杂场景中的表现。
自我改进机制：进一步探索模型的自我批评和迭代优化能力，使其能够在推理过程中不断改进输出，减少对外部验证器的依赖。
可解释性与安全性：在TTS技术中引入更强的可解释性和安全性机制，确保模型的推理过程透明且符合人类价值观。

5.15 实践建议

在实际应用中，选择预训练还是TTS技术取决于具体任务需求和资源限制。以下是一些实践建议：

任务难度：对于简单到中等难度的任务，优先考虑TTS技术，因为它们可以在不增加模型规模的情况下显著提升性能。
计算资源：如果推理时的计算资源有限，TTS技术（如束搜索或N选最佳采样）可能是更经济的选择。
领域适应性：对于需要全新领域知识的任务，预训练是更好的选择，因为它能够从根本上增强模型的能力。
实时性要求：对于对延迟敏感的应用（如实时对话系统），预训练模型可能更适合，因为它们无需额外的推理时计算。
混合部署：在资源允许的情况下，可以结合预训练和TTS技术，构建一个既能处理复杂任务又能在简单任务中高效运行的混合系统。

5.16 结论

测试时缩放方法为大型语言模型的优化提供了一条灵活且高效的路径。通过动态分配计算资源，TTS技术能够在不需要修改模型参数的情况下，显著提升模型在特定任务上的表现。然而，TTS并非替代预训练的万能解决方案，而是与其互补的技术。未来的研究应致力于结合两者的优势，构建更强大、更高效的语言模型系统，同时确保其可解释性、安全性和对人类价值观的符合性。

在选择技术路径时，开发者需要根据具体任务需求、计算资源限制和性能目标，权衡预训练和TTS的优缺点。通过合理的技术组合和优化策略，大型语言模型可以在更广泛的场景中发挥其潜力，为人工智能应用带来更大的价值。

下表是强化学习增强的大语言模型概述，其中 “141B-A39B” 表示一种专家混合（MoE）架构，共有 1410 亿个参数，其中在推理过程中有 390 亿个参数被积极使用