大语言模型后训练技术全面综述：推理增强、监督微调、强化学习、测试时缩放、模型对齐

最新推荐文章于 2025-05-23 10:18:27 发布

Python_金钱豹

最新推荐文章于 2025-05-23 10:18:27 发布

阅读量853

点赞数 20

文章标签：语言模型人工智能自然语言处理 hive hadoop 数据仓库深度学习

本文链接：https://blog.csdn.net/Python_cocola/article/details/146641497

版权

现在大语言模型很厉害，能做很多事，但也有不少毛病，像说的话可能没事实依据、逻辑不连贯等。这篇文章就研究怎么改进大语言模型，介绍了很多优化方法，比如微调、强化学习等。研究这些方法很重要，能让大语言模型变得更好用，在实际生活中的各种场景里发挥更大作用，像回答问题更准确、生成内容质量更高等。

大语言模型（LLMs）在自然语言处理领域成果显著，但存在如“幻觉”、逻辑一致性差等问题。文章系统阐述了LLMs的微调方法，包括微调、强化学习和测试时缩放。详细介绍了各方法的技术细节、面临的挑战，如灾难性遗忘、奖励作弊等，还提及相关数据集和基准测试。同时分析了未来研究方向，强调通过解决现有问题优化LLMs，以更好地应用于实际场景。

摘要&解读

大语言模型（LLMs）彻底改变了自然语言处理领域，并催生了各种各样的应用。在海量网络规模数据上进行的预训练为这些模型奠定了基础，然而目前研究界越来越关注微调技术，以期取得进一步的突破。虽然预训练提供了广泛的语言基础，但微调方法使大语言模型能够完善知识、提高推理能力、增强事实准确性，并更有效地与用户意图和道德考量保持一致。微调、强化学习和测试时缩放(Scaling)已成为优化大语言模型性能、确保鲁棒性和提高在各种实际任务中适应性的关键策略。本综述对微调方法进行了系统探索，分析了它们在预训练基础上完善大语言模型的作用，探讨了诸如灾难性遗忘、奖励作弊和推理时间权衡等关键挑战。我们重点介绍了模型对齐、可扩展适应和推理时推理等新兴方向，并概述了未来的研究方向。

• 研究背景： 大语言模型在自然语言处理领域取得显著成果，能完成多种任务，但存在生成内容不准确、逻辑不连贯、推理方式与人类不同以及难以符合用户期望和道德标准等问题。预训练虽为其奠定基础，但为解决上述问题，研究重点逐渐转向微调技术。

• 研究贡献：

• 全面系统地回顾了大语言模型的微调方法，涵盖微调、强化学习和缩放等关键方面。
• 构建了微调技术的结构化分类体系，清晰阐释了各技术的作用、相互联系，以及在实际应用中面临的挑战和未来研究方向。
• 介绍了关键的基准测试、数据集和评估指标，为评估微调效果提供实用指导，搭建了面向实际应用的结构化框架。

• 实现设计：

微调：通过在特定数据集上更新参数，使预训练大语言模型适应具体任务，但存在过拟合、高计算成本等问题，参数高效微调技术可缓解这些问题。
- 强化学习：将强化学习融入大语言模型推理，通常包含监督微调、奖励模型训练、RL微调等步骤，通过多种策略优化方法提升模型与人类偏好的一致性。
- 测试时缩放：在不更新模型的情况下，运用如束搜索、Best-of-N搜索、思维链提示等多种技术，在推理时增强模型推理能力，同时对比了预训练和测试时缩放的优劣。
实验结果： 测试时缩放技术在简单到中等难度任务上，可实现与大14倍模型相当的结果，同时降低推理成本；多种微调技术和训练方法在不同模型和任务上取得了一定的性能提升，但也面临如灾难性遗忘、奖励作弊等问题的挑战。

1. 引言

当代大语言模型（LLMs）在广泛的任务中展现出卓越的能力，不仅包括文本生成[1, 2, 3]和问答[4, 5, 6, 7]，还涉及复杂的多步推理[8, 9, 10, 11]。它们为自然语言理解[12, 13, 14, 15, 16, 17]、内容生成[18, 19, 20, 21, 22, 23, 24, 25]、自动推理[26, 27, 28, 29]和多模态交互[30, 31, 32, 33]等应用提供支持。通过利用大规模的自监督训练语料库，这些模型常常能模拟类似人类的认知[34, 35, 36, 37, 38]，在实际场景中表现出令人印象深刻的适应性。

尽管取得了这些令人瞩目的成就，但大语言模型仍存在一些关键缺陷。它们可能会生成具有误导性或事实错误的内容（通常称为 “幻觉”），并且在长篇论述中可能难以保持逻辑一致性[41, 42, 43, 44, 45, 46]。此外，大语言模型中的推理概念仍然是一个有争议的话题。虽然这些模型可以产生看似逻辑连贯的回答，但它们的推理与人类的逻辑推理有着根本的区别[47, 34, 48, 49]。这种区别至关重要，它有助于解释为什么大语言模型在相对简单的逻辑任务上会出错，却能产生令人信服的输出。与操纵明确规则和事实的符号推理不同，大语言模型以一种隐含的、概率性的方式运行[50, 42, 51]。在本研究的范围内，大语言模型中的 “推理” 是指它们基于数据中的统计模式生成逻辑连贯回答的能力，而不是基于明确的逻辑推理或符号操作。此外，仅通过下一个词预测训练的模型可能无法符合用户期望或道德标准，尤其是在模糊或恶意的场景中[4, 52]。这些问题凸显了需要专门策略来解决大语言模型输出中的可靠性、偏差和上下文敏感性问题。

大语言模型的训练大致可分为两个阶段：预训练，通常依赖于在大规模语料库上的下一个词预测目标；微调，包括多轮的微调与对齐。微调机制旨在通过优化模型行为、使输出符合人类意图、减少偏差或不准确之处，来缓解大语言模型的局限性[53]。

使大语言模型适应特定领域的任务通常涉及微调等技术[54, 55, 56]，这使得模型能够进行特定任务的学习，但存在过拟合风险且计算成本较高。为了解决这些挑战，强化学习（RL）[57, 58, 59]等方法通过利用动态反馈和优化顺序决策来提高适应性。此外，低秩适应（LoRA）[60]、适配器和检索增强生成（RAG）[61, 62, 63]等缩放技术的进步提高了计算效率和事实准确性。这些策略与分布式训练框架相结合，促进了大规模部署，并进一步提高了大语言模型在各种应用中的可用性（图1）。通过这些有针对性的微调干预，大语言模型能更好地与人类意图和道德要求保持一致，最终提高它们在现实世界中的适用性。下面，我们总结关键的微调阶段。

大语言模型中的微调：微调通过在精心策划的数据集上更新参数，使预训练的大语言模型适应特定任务或领域[64, 65, 66, 54, 55, 67, 56]。虽然大语言模型在大规模预训练后具有良好的泛化能力，但微调可以提高诸如情感分析[68, 69]、问答以及医学诊断等特定领域应用[70, 71, 72]的性能。这个过程通常是有监督的，使模型与任务要求保持一致，但也带来了过拟合、高计算成本和对数据偏差敏感等挑战[56, 31, 16]。为此，像LoRA[60]和适配器这样的参数高效技术通过更新特定参数来学习任务特定的适应性，显著降低了计算开销。随着模型的专业化，它们可能在领域外的泛化方面遇到困难，这突出了特异性和通用性之间的权衡。微调为特定任务定制大语言模型，提高性能，但存在过拟合、高计算成本和泛化能力降低的风险。
大语言模型中的强化学习：在传统强化学习中，智能体与结构化环境进行交互，采取离散动作在不同状态之间转换，同时最大化累积奖励[73]。强化学习领域，如机器人、棋盘游戏和控制系统，具有定义明确的状态 - 动作空间和清晰的目标[74, 75]。大语言模型中的强化学习有很大不同。大语言模型不是从有限的动作集中选择，而是从庞大的词汇表中选择标记，并且它们不断演化的状态包括不断增长的文本序列[16, 59, 76, 57]。这使得规划和奖励分配变得复杂，因为标记选择的影响可能要在稍后才会显现。基于语言的强化学习中的反馈也很稀少、主观且延迟，依赖于启发式评估和用户偏好，而不是明确的性能指标[78, 79, 58]。此外，与通常为单一目标进行优化的传统强化学习不同，大语言模型必须平衡多个、有时甚至相互冲突的目标。将基于过程的奖励（例如思维链推理）与基于结果的评估（例如响应质量）相结合的混合方法有助于优化学习[8, 80, 81]。因此，大语言模型的强化学习需要专门的优化技术来处理高维输出、非平稳目标和复杂的奖励结构，确保响应在上下文中相关并符合用户期望。大语言模型中的强化学习超越了传统强化学习，因为它要在庞大的动作空间中进行导航，处理主观和延迟的奖励，并平衡多个目标，这需要专门的优化技术。
大语言模型中的缩放：缩放对于提高大语言模型的性能和效率至关重要。它有助于提高跨任务的泛化能力，但也带来了巨大的计算挑战[82, 83]。在推理时平衡性能和资源效率需要有针对性的策略。思维链（CoT）推理[8]和思维树（ToT）[84]框架等技术通过将复杂问题分解为顺序或树状结构的步骤来增强多步推理能力。此外，基于搜索的技术[85, 86, 87, 88]能够迭代探索可能的输出，有助于优化响应并确保更高的事实准确性。这些方法与LoRA[60]、适配器和RAG[61, 62, 89]等方法相结合，优化了模型大规模处理复杂、特定领域任务的能力。RAG通过动态检索外部知识来提高事实准确性，减轻了静态训练数据的局限性[62, 24, 90]。分布式训练框架利用并行处理来管理大规模模型的高计算需求。测试时缩放通过根据任务复杂性动态调整参数来优化推理[83, 91]。调整深度、宽度或激活层可以平衡计算效率和输出质量，这在资源有限或变化的条件下非常有价值。尽管取得了这些进展，但缩放也带来了一些挑战，如收益递减、推理时间延长和环境影响，特别是在测试时而非训练时执行搜索技术时[82]。确保可及性和可行性对于维持高质量、高效的大语言模型部署至关重要。测试时缩放通过在推理过程中动态调整计算资源来提高大语言模型的适应性。

1.1 先前的综述

近期关于强化学习和大语言模型的综述提供了有价值的见解，但往往侧重于特定方面，未充分探讨关键的微调组件[51, 92, 93, 94]。许多研究探讨了诸如人类反馈强化学习（RLHF）[58]、人工智能反馈强化学习（RLAIF）[95]和直接偏好优化（DPO）[57]等强化学习技术，但它们忽略了微调、缩放以及对实际应用至关重要的关键基准测试。此外，这些研究没有探索在各种框架（如采用GRPO的DeepSeek R1[59]）中，即使没有人类注释监督的微调，强化学习的潜力。其他综述探讨了大语言模型在传统强化学习任务（如多任务学习和决策）中的应用，但它们主要对大语言模型的功能进行分类，而没有涉及测试时缩放和集成的微调策略[96, 97]。同样，关于大语言模型推理的研究[98, 99, 100, 55, 101, 102, 103, 104]讨论了学习推理技术，但缺乏关于结合微调、强化学习和缩放的结构化指导。由于缺乏教程以及对软件库和实现工具的评论，这些综述的实用性也受到限制。相比之下，本综述如图1所示，通过系统地涵盖微调、强化学习和缩放作为相互关联的优化策略，提供了对大语言模型微调的全面视角。我们提供了实用资源（基准测试、数据集和教程），以帮助优化大语言模型在实际应用中的性能。

1.2 贡献

本综述的主要贡献如下：

我们对大语言模型的微调方法进行了全面而系统的回顾，涵盖了微调、强化学习和缩放，这些都是模型优化的重要组成部分。
我们提供了微调技术的结构化分类，阐明了它们的作用和相互联系，并对优化大语言模型以实现实际部署中的开放挑战和未来研究方向提出了见解。
我们的综述通过介绍评估微调有效性所需的关键基准测试、数据集和评估指标，提供了实用指导，确保了实际应用的结构化框架。

2. 背景

大语言模型通过使用最大似然估计（MLE）[106, 3, 107]，基于大量文本数据学习预测序列中的下一个标记，从而改变了推理方式。最大似然估计通过最小化负对数似然，最大化给定输入时生成正确序列的概率：

其中，表示输入，例如提示或上下文。是相应的目标序列，表示模型在给定先前标记的情况下，对标记的预测概率。

逐词训练可以确保流畅性，但在推理过程中，由于未纠正的错误可能会导致级联错误。随着这些模型规模的扩大，它们展现出了涌现的推理能力，尤其是在包含代码和数学内容的多样化数据上进行训练时[108, 8]。然而，尽管大语言模型具有令人印象深刻的能力，但它们在长序列中难以保持连贯性和上下文相关性。解决这些局限性需要一种结构化的序列生成方法，这自然与强化学习相一致。

由于大语言模型以自回归方式生成文本（每个标记的预测取决于先前生成的标记），这个过程可以被建模为马尔可夫决策过程（MDP）中的顺序决策问题[109]。在这种情况下，状态表示到目前为止生成的标记序列，动作是下一个标记，奖励用于评估输出的质量。大语言模型的策略被优化以最大化预期回报：

其中，是折扣因子，它决定了未来奖励对当前决策的影响程度。值越高，对长期奖励的重视程度就越高。强化学习的主要目标是学习一种策略，以最大化预期累积奖励，通常称为回报。这需要在探索（尝试新动作以发现其效果）和利用（利用能产生高奖励的已知动作）之间取得平衡。虽然大语言模型使用静态数据优化似然函数，但强化学习通过动态交互来优化预期回报。为了确保大语言模型生成的响应不仅在统计上合理，而且与人类偏好一致，超越静态优化方法至关重要。虽然基于似然的训练从大规模语料库中捕捉模式，但它缺乏在交互式环境中优化决策所需的适应性。通过利用结构化方法最大化长期目标，模型可以动态调整策略，平衡探索和利用，以提高推理、连贯性和一致性[110, 111, 49, 48]。

大语言模型因规模而展现出涌现能力，而强化学习对其进行优化和校准，以实现更好的推理和交互。

2.1 基于强化学习的顺序推理

现代大语言模型中观察到的思维链推理自然可以被构建为一个强化学习问题。从这个角度来看，每个中间推理步骤都被视为有助于最终答案的一个动作。策略梯度更新由下式给出：

其中，优势函数为各个步骤分配奖励，确保通过即时和延迟奖励来优化整体推理过程。包括逐步奖励分解[112, 113]在内的这些公式，对于提高大语言模型在复杂推理任务上的可解释性和性能至关重要。在传统强化学习公式中，智能体具有：

动作价值函数：
优势函数：

优势函数衡量在状态下采取特定动作与智能体通常预期（其基线）相比的优劣程度。

2.2 早期用于语言建模的强化学习方法

在这里，我们简要概述为将强化学习应用于语言生成任务奠定基础的开创性方法。这些早期努力通过直接调整决策模型（称为 “策略”）的参数以最大化奖励来进行训练。下面解释一些策略梯度方法：

策略梯度（REINFORCE）：REINFORCE算法[114, 115]是一种通过根据动作获得的奖励调整模型策略来改进决策的方法。该算法不是直接学习每种情况下的最佳动作，而是优化不同动作被选择的可能性，随着时间的推移逐渐改善结果。在每一步，模型根据过去决策的表现更新其参数：

其中，表示模型在一个episode中累积的总奖励，是一个基线值，有助于减少方差，使学习更加稳定，衡量的微小变化对在状态下选择动作的概率的影响，是学习率，控制策略在每一步的更新幅度。

此公式将评估指标（例如）直接纳入训练，实现了对策略的细粒度调整。

优势演员 - 评论家（A2C/A3C）：像REINFORCE[114]这样的强化学习方法仅依赖于策略梯度，这会导致高方差，从而导致学习不稳定且效率低下。由于奖励信号在不同轨迹上波动，更新可能会有噪声，导致收敛缓慢或不稳定。为了缓解这一问题，演员 - 评论家方法[152, 153, 154, 155]结合了两个组件：一个演员和一个评论家。演员是在状态下选择动作的策略，而评论家是评估状态预期回报的价值函数。评论家提供了更稳定的学习信号，减少了策略更新的方差，并使在连续动作空间中的学习更加高效。演员的更新由策略梯度定理指导，其中前面章节定义的优势函数决定了一个动作相较于状态的预期价值的优劣程度。策略以学习率更新如下：

同时，评论家使用时间差分学习进行更新，最小化其估计值与实际回报之间的均方误差：

其中，是评论家的学习率。为了提高稳定性和效率，人们提出了一些改进方法。资格迹允许从近期状态中学习，加快收敛速度。使用神经网络进行函数逼近确保能够有效处理高维输入。诸如自然梯度方法[156]等高级变体利用费舍尔信息矩阵调整更新，提高收敛速度。

基于长期奖励而非即时结果来优化动作，在近期的大语言模型中仍然至关重要，这使得模型能够探索多种推理路径。

基于MIXER的课程学习：Ranzato等人[116]提出了从最大似然估计（MLE）到强化学习的逐渐过渡。总体损失是一个加权组合：

其中，随训练时间减少。这种课程学习有助于模型逐渐适应强化学习目标，并减轻训练和推理之间的差异。
自批判性序列训练（SCST）：SCST[117]通过将模型的采样输出与其自身最佳（贪婪）预测进行比较，改进了策略梯度方法。SCST不使用任意基线，而是使用模型自身得分最高的输出，确保更新直接相对于模型当前认为的最佳响应来提高性能。梯度更新如下：

其中，是采样序列，是贪婪输出，代表诸如翻译中的BLEU[118]或图像字幕中的CIDEr[119]等评估指标。由于学习信号基于差异，模型被明确训练为生成在评估指标下得分高于其自身基线的输出。如果采样输出优于贪婪输出，模型会强化它；否则，会抑制该序列。这种直接的反馈循环确保训练符合期望的评估标准，而不仅仅是最大化似然。通过利用模型自身的最佳预测作为基线，SCST有效地减少了方差，稳定了训练，同时优化了实际性能指标。

一个著名的早期例子是Barto的演员 - 评论家模型[157]，其中评论家使用线性函数，演员遵循线性策略。现代方法如A2C（优势演员 - 评论家）[154]和A3C（异步优势演员 - 评论家）[155]通过在多个环境中并行训练扩展了这种方法，实现了更快、更稳定的学习。通过利用评论家的价值估计，演员 - 评论家方法稳定了学习过程，提高了样本效率，加速了收敛，使其在复杂决策任务中更加有效。

表1：强化学习增强的大语言模型概述，其中“141B - A39B”表示混合专家（MoE）架构，总共有1410亿个参数，在推理过程中使用390亿个参数。

与现代方法的联系：上述早期的强化学习方法，如REINFORCE[114]、MIXER[116]、SeqGAN[158]、SCST[117]、MRT[151]和演员 - 评论家算法，为大语言模型中的顺序推理奠定了数学基础。这些方法为诸如曝光偏差和高方差等挑战提供了初步解决方案。现代技术，如使用近端策略优化（PPO）[73]的大规模人类反馈强化学习（RLHF）和先进的奖励模型，例如组相对策略优化（GRPO）[159]，直接建立在这些思想之上。通过整合复杂的奖励信号并利用高效的策略更新，当代大语言模型在推理、安全性以及与人类价值观的一致性方面取得了改进，为强大的多步推理和生成文本质量的提升铺平了道路。表1提供了近期模型的概述，包括它们的参数、架构类型、采用的强化学习方法以及便捷访问链接。

3. 强化大语言模型

从方法论的角度来看，将强化学习集成到大语言模型推理中通常遵循三个核心步骤：

监督微调（SFT）：从一个预训练的语言模型开始，随后在高质量、人工编制的示例监督数据集上进行优化。这一阶段确保模型在格式和风格指南方面达到基本的合规性。
奖励模型（RM）训练：收集来自微调模型的生成输出，并进行人工偏好标注。然后训练奖励模型，以复制这些基于标签的分数或排名，有效地学习一个将响应文本映射到标量值的连续奖励函数。
RL微调：最后，通过策略梯度算法（如近端策略优化（PPO））对主要语言模型进行优化，以最大化奖励模型的输出。通过迭代这个循环，大语言模型学习生成在准确性、有用性和风格连贯性等关键维度上符合人类偏好的响应。
奖励建模和校准：开发复杂的奖励函数，这些函数借鉴人类偏好、对抗反馈或自动指标，引导模型生成连贯、安全且上下文合适的输出。这些奖励对于在多步推理过程中进行有效的奖励分配至关重要。

早期使大语言模型与人类偏好保持一致的方法利用了经典的强化学习算法，如近端策略优化（PPO）[73]和信赖域策略优化（TRPO）[160]，这些算法通过最大化预期累积奖励来优化策略，同时通过代理目标函数和KL散度正则化对策略更新施加约束[161]。为了实现可扩展的基于偏好的优化，已经出现了比这些方法更优的替代方案，如直接偏好优化（DPO）[57, 162]和组相对策略优化（GRPO）[159, 59, 16]，它们将校准目标重新表述为基于人类标注的偏好数据的排序对比损失函数[163]。与依赖显式奖励模型和评论家网络的近端策略优化（PPO）和信赖域策略优化（TRPO）[160]不同，直接偏好优化（DPO）和组相对策略优化（GRPO）分别通过利用对数似然比和组间奖励比较直接优化策略，在保持偏好一致的学习动态的同时，消除了对显式值函数逼近的需求。从基于经典强化学习的校准到基于偏好的直接优化的转变引入了诸如对比排序损失、策略似然比正则化和分组优势估计等新公式，后续章节将对这些内容进行解释。

3.1 奖励建模

设为可能查询（例如用户提示）的空间。对于每个查询，我们收集一个或多个候选响应，其中是查询的候选响应数量。通常，这些响应是由语言模型或策略在不同的采样或提示条件下生成的。人工注释者对这些响应提供偏好判断，这些判断可以采用多种形式：

成对偏好：对于对同一查询的两个响应和，注释者指出是否比更受偏好。
排名：候选响应的部分或全部排序，例如。

我们用表示每个响应或响应对的人工偏好数据，其中可能是一个标签、一个排名或一个表示偏好程度的索引。整个数据集由注释示例组成。在实践中，从真实或模拟的用户请求中采样大量查询。候选响应通过从基础语言模型采样或使用束搜索及其他解码策略生成。然后，人工注释者根据预定义的标准（例如质量、正确性、有用性等）对哪些响应更好（或更差）提供成对或排名反馈。我们训练一个参数化模型，称为奖励模型，将每个（查询，响应）对映射到一个标量分数。目标是使反映一致性或偏好程度，使得：

其中，是所有可能响应的空间。

为了训练，我们使用中的人工偏好标签来定义一个合适的基于排名的损失，如下所述：

Bradley–Terry模型（成对）：对于成对偏好，通常使用Bradley–Terry模型[164]。假设数据集表明，对于给定查询，人工注释者更喜欢而非，我们将其表示为。在Bradley–Terry模型下，比更受偏好的概率为：

我们通过最大化观察到的偏好的可能性（或等效地最小化负对数似然）来训练：

2.Plackett–Luce模型（排名）：当有响应的完整或部分排名可用时，即，Plackett–Luce模型[165]将此排名的概率分解为：

其负对数似然为：

在实践中，人们会对所有偏好数据最小化所选基于排名的损失之和（或平均值）：
或
其中，可以是或。虽然奖励模型提供了反映人类偏好的标量奖励信号，但这与常见的强化学习概念相关，尤其是优势函数。

奖励建模使用基于排名的损失从人类偏好中学习一个函数，以进行策略优化。

奖励建模类型：奖励可分为显式和隐式方法。
- • 显式奖励建模：显式奖励建模直接根据预定义的规则、启发式方法或人工注释来定义奖励函数。这种奖励结构涉及来自人类或经过训练以近似人类判断（例如排名或成对比较）的专门人工智能模块的直接数字信号。此方法可以产生精确的奖励估计，但在大规模应用时可能耗时或成本高昂。示例用例包括“红队”演习，专家在其中评估有害输出的严重程度，或者在领域专家任务中，正确性必须由主题专家进行验证。
- • 隐式奖励建模：隐式奖励建模从观察到的行为、交互或偏好信号中间接推断奖励，通常利用机器学习技术来揭示潜在的奖励结构。它从用户交互指标（如点赞、接受率、点击模式或会话参与时间）中获取信号。虽然它可以以最小的开销积累大量数据集，但这种方法存在培养利用参与启发式而牺牲内容质量或准确性的行为的风险。
奖励函数：为文本生成任务定义奖励函数是一个不适定问题[166, 167]。大语言模型中现有的强化学习方法要么关注生成过程（过程奖励建模），要么关注结果（结果奖励建模），以塑造大语言模型的行为。我们在下面解释这两种奖励建模范式：
- • 结果奖励建模：衡量最终结果（例如，最终答案是否在事实上正确或是否解决了用户的查询）。此模型易于实现，但可能对结论的得出方式提供有限的见解。它在短响应任务中很普遍，在这些任务中，用户主要关注最终陈述的正确性或简洁性。对于长响应任务，基于结果的奖励可能会导致奖励分配问题，即哪些特定的行动或状态导致了特定的奖励结果。
- • 过程奖励建模：在中间推理步骤分配反馈，激励连贯、逻辑一致且结构良好的思维链。这种方法对于涉及数学推导、法律论证或代码调试的任务特别有价值，在这些任务中，得出答案的过程与最终陈述同样重要。在这类问题中，在各个步骤分配的奖励鼓励透明度和稳健的逐步推理。然而，它需要更复杂的注释过程，例如，需要“黄金”推理步骤或部分学分评分。过程奖励可以与结果奖励相结合，以提供强大的多阶段训练信号。过程奖励建模（PRM）结合最后一步聚合优于结果奖励建模（ORM）。
- • 具有自适应奖励模型的迭代强化学习：自适应奖励模型是一种训练方法，旨在通过迭代优化奖励模型和策略模型来持续提高大语言模型的性能。这种方法解决了奖励作弊和奖励模型漂移的挑战，这些问题可能在大规模强化学习训练期间发生，当奖励模型与期望目标不一致时。强化学习过程分为多个迭代，模型在循环中进行训练。每次迭代后，根据最新的模型行为和人类反馈更新奖励模型。奖励模型不是静态的，而是随着时间演变，以更好地与人类偏好和任务要求保持一致。这种适应确保随着模型的改进，奖励信号仍然准确和相关。重复迭代过程，直到模型的性能达到稳定或满足所需的基准。奖励模型和策略模型共同进化，每次迭代使它们更接近最佳校准。

3.2 策略优化

一旦我们有了一个训练好的奖励模型来捕捉人类偏好，我们就可以将其集成到强化学习框架中，以优化策略。本质上，我们用替换（或增强）环境的原生奖励信号，使智能体专注于为给定查询生成人类偏好的响应。

在典型的强化学习符号中：

这里的每个状态可以解释为语言建模中生成下一个标记的部分对话或部分生成过程。
每个动作是要生成的下一个标记（或下一段文本）。
策略是下一个标记的条件分布，由参数化。

我们寻求找到，以最大化在下的预期奖励。具体来说，设是用户查询，是生成的响应。我们旨在解决：

这意味着，平均而言，在用户查询和从策略中抽取的响应上，我们希望奖励模型的分数尽可能高。

策略梯度和优势：现代算法（例如近端策略优化（PPO）[73]、组相对策略优化（GRPO）[59]、信赖域策略优化（TRPO）[160]）依赖于策略梯度。图5对这些主要的强化学习框架进行了结构化比较。每个框架基于不同的策略学习、参考建模和奖励计算原则构建。回想一下，优势函数量化了一个动作比基线预期回报好多少。在高层次上，我们朝着增加具有正优势的动作的并减少具有负优势的动作的方向更新策略。形式上，时间的优势可以写成：

其中，是从状态采取动作时的预期未来回报（包括即时奖励），是状态的值函数。当使用奖励模型时：
- • 我们将解释为生成响应的即时或终端奖励。
- • 策略的未来回报因此考虑了后续标记被正向评分的可能性。
- • 优势函数仍然捕捉了特定生成步骤与基线性能相比的优劣程度。
- • 奖励模型学习相对偏好而不是绝对分数。这避免了对校准的人类评分的需求，并专注于成对比较。
优势比偏好优化（ORPO）：一种最简单的方法是优势比偏好优化（ORPO）[168]，它直接从成对的人类偏好中优化策略。与先学习一个单独的奖励模型然后运行标准强化学习不同，优势比偏好优化（ORPO）更新策略，以增加相对于不被偏好的响应（根据人类标签）被偏好的响应的可能性。关键思想是查看优势比：

其中，是给定查询的偏好响应，是不太被偏好的响应。

• 成对偏好概率：在许多直接偏好方法（例如Bradley–Terry风格）中，人们会写：

其中，是逻辑（sigmoid）函数。直观地说，如果策略对分配的概率高于对的概率，优势比超过1，使得在模型下更有可能成为偏好结果。
• 通过优势比的解释：通过将每个偏好标签视为对优势比的约束，优势比偏好优化（ORPO）推动策略增加对的概率质量，同时减少对的概率质量。在对数空间中查看时：
- • 更高的值对应于选择而不是的可能性更大。因此，最小化与人类标记的偏好一致。
- • 优势比偏好优化（ORPO）在组合多个奖励信号方面可能不太灵活。

大语言模型中的近端策略优化（PPO）：近端策略优化（PPO）[73]是一种流行的策略优化方法，用于使大语言模型与人类反馈保持一致。给定由参数化的策略和奖励函数，近端策略优化（PPO）通过优化一个裁剪目标来更新策略，该目标平衡了探索和稳定性。具体来说，如果表示状态中动作的概率比，裁剪后的近端策略优化（PPO）目标是：

其中，是优势函数的估计器，是控制与先前策略允许偏差的超参数。使用基于奖励和学习到的值函数的广义优势估计（GAE）[169]计算。近端策略优化（PPO）的裁剪目标限制了更新后的策略分布与原始策略的差异程度。这种调节避免了语言生成中的灾难性变化，并保持了训练的稳定性。

• 带有KL惩罚的策略优化：在使用近端策略优化（PPO）进行强化学习微调期间，策略被优化以最大化奖励，同时保持接近基础模型。修改后的奖励函数包括一个KL散度惩罚：

其中，控制惩罚强度。KL项防止过度优化代理奖励（即奖励作弊）。
• KL惩罚确保策略保留基础模型的语言连贯性，并避免退化输出。

人类反馈强化学习（RLHF）：人类反馈强化学习（RLHF）[58]通过直接的人类偏好信号优化大语言模型，使其更符合人类期望。该过程涉及三个主要步骤。首先，使用高质量的标记数据对预训练模型进行监督微调（SFT），以建立强大的语言和事实能力。其次，使用人类注释的生成响应排名训练奖励函数，使其能够预测偏好并提供标量奖励信号。第三，在人类反馈强化学习（RLHF）[58]管道中使用近端策略优化（PPO），通过使用人类提供的偏好分数（或排名）来塑造并指导策略更新。这确保模型优先考虑与人类偏好行为一致的输出。近端策略优化（PPO）在噪声或部分奖励信号条件下的稳健性能使其非常适合文本生成任务，在这些任务中，大动作空间和细微的奖励定义很常见。
人工智能反馈强化学习（RLAIF）：人工智能反馈强化学习（RLAIF）[95]是人类反馈强化学习（RLHF）的替代方法，它用人工智能生成的反馈取代了人工注释。人工智能反馈强化学习（RLAIF）不是依赖人类标记的偏好，而是使用一个功能强大的辅助语言模型来生成偏好标签，然后用于训练奖励模型。这个奖励模型指导目标模型的基于强化学习的微调。人工智能反馈强化学习（RLAIF）通过消除对人工注释者的需求，降低了数据收集的成本和时间。它能够在不需要大量人工干预的情况下实现大规模模型校准，同时保持高性能和校准效果。实证研究表明，人工智能反馈强化学习（RLAIF）[95, 170]是人类反馈强化学习（RLHF）的可扩展且高效的替代方法，使其成为强化学习驱动的语言模型优化的有前途的方向。
1. 学习更新的稳定性。信赖域策略优化（TRPO）在确保策略更新保持在由KL散度衡量的受限信任区

裁剪机制将策略更新限制在一个安全的信任区域内，这在处理复杂的高维动作空间时至关重要。

信赖域策略优化（TRPO）：信赖域策略优化（TRPO）[160]是另一种广泛使用的策略优化方法，早于近端策略优化（PPO），并与近端策略优化（PPO）有着相同的基本目标：提高强化域内的同时，优化策略更新。

与近端策略优化（PPO）使用裁剪目标不同，信赖域策略优化（TRPO）通过解决以下优化问题对策略更新施加硬约束：
受限于约束：

其中，是一个超参数，控制新策略与旧策略的差异程度。

与近端策略优化（PPO）通过裁剪近似此约束不同，信赖域策略优化（TRPO）直接解决一个约束优化问题，确保每次更新在策略空间中不会移动太远。然而，解决这个约束问题需要计算成本高昂的二阶优化技术，如共轭梯度法，这使得信赖域策略优化（TRPO）对于像大语言模型这样的大规模模型效率较低。在实践中，由于近端策略优化（PPO）的简单性、易于实现以及在大规模应用（如人类反馈强化学习（RLHF））中的可比性能，它比信赖域策略优化（TRPO）更受青睐。然而，信赖域策略优化（TRPO）仍然是深度强化学习中稳定策略优化的重要理论基础。

直接偏好优化（DPO）：直接偏好优化（DPO）[162]是最近提出的一种从人类偏好数据训练大语言模型的方法，无需诉诸传统的强化学习循环（如在使用近端策略优化（PPO）的人类反馈强化学习（RLHF）中）。与先学习一个单独的奖励函数然后运行策略梯度更新不同，直接偏好优化（DPO）直接将人类偏好信号集成到模型的训练目标中。因此，与上述近端策略优化（PPO）目标不同，直接偏好优化（DPO）构建了一个目标，在单个对数似然框架内直接提高选定（偏好）响应的概率，同时降低不太被偏好的响应的概率。直接偏好优化（DPO）损失不是通过裁剪来限制策略变化，而是使用“获胜”与“失败”响应的对数概率之间的差异。这在更新的参数中明确编码了用户的偏好。

这里，是可学习的策略，是参考策略（通常是监督微调训练的模型），是sigmoid函数，是缩放参数，是三元组的数据集，其中比更受偏好。
关键的见解在于，大语言模型可以被视为一个 “隐藏的奖励模型”：我们可以对偏好数据进行重新参数化，使得模型自身的对数概率能够反映一个响应相较于另一个响应的偏好程度。通过直接调整更受偏好响应相对于不太受偏好响应的对数似然，直接偏好优化（DPO）避开了基于强化学习方法的许多复杂性（例如优势函数或显式裁剪）。

优势函数对每一步的贡献进行量化，这对于识别关键推理错误至关重要。而在直接偏好优化（DPO）中，这种粒度丧失了，它对整个轨迹一视同仁。

基于分布内数据的困惑度过滤：为确保直接偏好优化（DPO）训练数据在分布内（与参考策略一致），使用困惑度对响应进行过滤。响应的困惑度定义为：

其中，是第个标记。只有困惑度低于阈值（例如，由参考策略生成的响应的第95百分位数）的响应才会被保留。

优势函数仍然是确定在每一步中哪些动作（标记选择）优于基线的核心概念。

离线推理优化（OREO）：离线推理优化（OREO）[171]是一种离线强化学习方法，旨在通过优化软贝尔曼方程[109]来增强大语言模型的多步推理能力。与依赖成对偏好数据的直接偏好优化（DPO）不同，离线推理优化（OREO）使用基于最终结果（例如推理链的正确性）的稀疏奖励，并联合训练策略模型和价值函数以进行细粒度的奖励分配。核心目标是最小化软贝尔曼方程中的不一致性：

其中，是下一个状态，是稀疏奖励，控制KL正则化。策略和价值损失分别为：

其中，惩罚与参考策略的偏差，平衡正则化。

离线推理优化（OREO）的显式价值函数使得在测试时可以进行束搜索（例如，选择高价值的推理步骤）和迭代训练，在迭代训练中，失败的轨迹可以优化策略。这与直接偏好优化（DPO）的隐式价值函数形成对比，后者缺乏逐步奖励分配。

离线推理优化（OREO）的计算成本随轨迹长度和价值模型训练而增加。虽然它在数学/智能体任务中有效，但将其推广到更广泛的领域（例如编码）需要进一步验证。迭代训练也需要仔细的数据整理，以避免过度拟合失败模式。

组相对策略优化（GRPO）：组相对策略优化（GRPO）[59]通过消除对单独价值函数的需求简化了近端策略优化（PPO）框架。相反，组相对策略优化（GRPO）从针对同一问题的多个采样输出的平均奖励中估计基线。组相对策略优化（GRPO）的主要贡献在于，它无需单独的价值模型（评论家模型），而是从一组采样的大语言模型输出中估计基线奖励。这显著减少了内存使用并稳定了策略学习。该方法也与奖励模型的训练方式很好地契合，即通过比较不同的大语言模型生成的输出，而不是预测绝对价值。

对于每个问题，组相对策略优化（GRPO）从旧策略中采样一组输出。使用奖励模型对组中的每个输出进行评分，得到奖励。通过减去组平均值并除以标准差对奖励进行归一化：

输出中每个标记的优势被设置为归一化后的奖励。

组相对策略优化（GRPO）首先采样一个问题，然后从中采样输出。定义每个输出的目标为：

然后，组相对策略优化（GRPO）的目标变为：

其中，概率比定义为，是与近端策略优化（PPO）类似的裁剪超参数，调整KL散度惩罚，鼓励新策略不过度偏离参考策略，参考策略通常是初始监督微调（SFT）模型[172, 173]。组相对策略优化（GRPO）可以应用于两种模式：结果监督和过程监督。

结果监督：仅在每个输出的末尾提供奖励。输出中所有标记的优势被设置为归一化奖励。
过程监督：在每个推理步骤的末尾提供奖励。每个标记的优势计算为后续步骤的归一化奖励之和：

其中，是结束标记索引，是第步的起始标记索引。总体而言，组相对策略优化（GRPO）通过利用组级优势，成为DeepSeekR1[40]中经典演员 - 评论家框架的高效替代方案，从而在不牺牲区分候选响应之间细微差异能力的情况下降低了训练成本。

细粒度的逐步奖励使模型能够有效地识别和强化高质量响应，提升复杂多步推理任务的整体性能。

多样本比较优化：多样本比较优化方法[174]不再仅仅依赖单对比较，而是同时比较多个响应，以促进多样性并减少偏差。具体而言，给定针对查询的一组响应，观察到排名的概率由下式确定：

在这个公式中，每个响应都在所有其他响应的背景下进行联合评估，确保比较不是孤立的成对事件，而是更广泛排名框架的一部分，有助于捕捉更细微的偏好并减少潜在偏差。

3.3 基于纯强化学习的大语言模型优化

Guo等人（2025）[40]的工作引入了两个主要模型：DeepSeek - R1 - Zero和DeepSeek - R1。DeepSeek - R1 - Zero采用纯粹的强化学习方法，不进行任何监督微调（SFT）。DeepSeek - R1结合了冷启动数据，并应用了多阶段训练管道。

该方法包括几个步骤（主要步骤见组相对策略优化（GRPO）中的图2）：收集冷启动数据、进行强化学习训练、执行监督微调、使用蒸馏将知识转移到较小的模型，并解决诸如语言混合和可读性等特定挑战。这个多阶段管道确保了模型的稳健性并与人类偏好保持一致，而蒸馏使得在不显著损失性能的情况下高效部署较小的模型成为可能。

冷启动强化学习阶段：该过程从冷启动强化学习阶段开始，在这个阶段，收集少量精心整理的数据来微调初始或基础模型。在初步微调之后，通常通过诸如组相对策略优化（GRPO）等算法进行强化学习，直到收敛。冷启动阶段对于在全面强化学习训练之前稳定模型至关重要，防止纯粹由强化学习驱动的更新可能导致的不稳定性。冷启动数据准备的重点是捕捉人类可读的推理模式，以防止纯粹由强化学习驱动的更新带来的不稳定性。这一步生成具有一致<推理过程>和<总结>字段的思维链（CoT）风格示例，通常涉及数千个经过仔细整理的样本。结构化的思维链格式和一致的字段确保了模型推理输出的清晰性和稳健性，减少错误并提高可解释性[8, 175, 176, 177]。

在强化学习训练之前的思维链示例为推理任务提供了更坚实的基础，从而产生更稳健且可解释的输出。

拒绝采样和微调：这个概念也在WebGPT[81]中使用。一旦强化学习稳定下来，就采用拒绝采样机制来生成高质量的响应，然后根据正确性、清晰度和其他质量指标对这些响应进行筛选。这些经过筛选的响应随后与其他数据集混合，生成一个新的、更大的语料库，用于监督微调。拒绝采样确保只有高质量的输出用于进一步训练，从而提高模型的整体性能和可靠性。在强化学习针对高风险推理任务收敛后，使用拒绝采样来筛选大量生成的输出，扩展训练集。这些新生成的推理示例（数量可能高达数十万）与现有的监督微调数据混合，创建一个规模可观的组合数据集（通常约为80万个样本）。拒绝采样和数据集扩展显著增强了模型对一般任务的覆盖范围，同时保留了其推理能力。
面向推理的强化学习：面向推理的强化学习利用组相对策略优化（GRPO）[59]，它从当前策略中采样一组输出，并为每个输出计算奖励和优势。奖励可以通过基于规则的检查来计算，例如确保数学或代码任务中的正确解决方案、强制执行结构化的思维链标签，并惩罚不期望的语言混合。组相对策略优化（GRPO）基于组的采样和奖励计算确保模型优先考虑高质量、结构化的输出，从而增强其推理能力。
用于人类校准的第二阶段强化学习：第二阶段强化学习通过引入额外的奖励信号和提示分布，进一步使模型与更广泛的人类偏好（有用性、无害性、创造性等）保持一致。第二阶段强化学习确保模型与人类价值观保持一致，使其更加通用和具有上下文感知能力。在这个组合数据集上重新训练基础模型后，可以进行第二轮强化学习，使模型更紧密地与人类偏好保持一致（例如，在有用性和无害性方面）。这个强化学习阶段对模型进行微调，使其更好地与人类价值观保持一致，确保输出不仅准确，而且在上下文中合适。
用于较小模型的蒸馏：最后，使用蒸馏技术将主模型优化后的能力转移到较小的架构中，实现更高效的部署，同时不会牺牲太多性能。它使较小的模型能够继承先进的推理能力，使其在具有挑战性的基准测试中具有竞争力，而无需承担全面强化学习训练的计算成本。最后，蒸馏起着关键作用：表现最佳的模型DeepSeek - R1[40]作为教师模型，指导较小的架构（例如，Qwen或Llama系列，参数范围从15亿到70亿）。这种转移使较小的模型能够继承先进的推理能力，使其在具有挑战性的基准测试中具有竞争力，而无需承担全面强化学习训练的计算成本。

蒸馏使得先进的推理能力得以普及，使较小的模型能够以较低的计算开销实现具有竞争力的性能。

4. 大语言模型中的监督微调

如图2所示，微调是大语言模型微调流程的基本组成部分。在本节中，我们总结大语言模型不同类型的微调机制。

指令微调：在指令微调中，模型在精心策划的指令（提示）和响应（完成）对上进行训练。主要目标是引导大语言模型准确且有用地遵循用户提供的指令，而不受任务领域的限制。这通常涉及编译涵盖多种任务类型（例如总结、问答、分类、创意写作）的大量多样的指令 - 响应对数据集。诸如T0[178]、FLAN[179]、Alpaca[180]、Vicuna[181]和Dolly[182]等模型展示了经过指令微调的大语言模型如何凭借其增强的指令遵循能力在零样本或少样本任务中超越基础模型。
对话（多轮）微调：一些大语言模型进行对话式微调，以更好地处理多轮对话。与上述指令微调不同，这里的数据采用连续对话（多轮对话）的形式，而不是单个提示 - 响应对。在这种方法中，训练数据由包含多个用户查询和系统响应的聊天记录组成，确保模型学习在不同轮次中保持上下文并产生连贯的回复。像LaMDA[183]和ChatGPT[39]等模型突出了经过对话微调的大语言模型如何给人更具交互性和上下文感知的感觉。虽然对话微调可能与指令微调重叠（因为许多指令以聊天格式呈现），但专门的对话数据通常会产生更自然的多轮用户体验。
思维链推理微调：思维链（CoT）推理微调教导模型生成逐步推理过程，而不仅仅是最终答案。通过展示中间推理或思考过程，思维链微调可以提高复杂任务（例如数学应用题、多跳问答）的可解释性和准确性。在实践中，思维链微调使用监督推理注释（通常由专家手工制作）来展示解决方案是如何展开的。早期的重要工作包括思维链提示[8]和自一致性[184]，它们最初将这一想法应用于提示；随后的工作（例如思维链蒸馏[185]）将其应用于完整的微调或学生 - 教师范式。这些努力也扩展到了多模态领域，例如LlaVACoT[186]和LlamaV - o1[187]，其中图像、问答和思维链推理步骤被用于大语言模型的微调。
领域特定（专业）微调：当大语言模型需要在特定领域（例如生物医学、金融或法律）表现出色时，会使用领域特定微调。在这里，使用精心策划的与领域相关的文本和标记示例的语料库来微调大语言模型。例如，BioGPT[71]和BiMediX[216]专注于生物医学文献，FinBERT[217]用于金融文本，ClimatGPT[218, 219]用于气候和可持续性领域，CodeT5[220]用于代码理解。这些领域的监督微调通常包括使用特定领域数据进行分类、检索或问答任务，确保模型的参数适应该领域的专业语言和概念。领域特定微调也扩展到了视觉 - 语言模型，例如，[221]在遥感图像上进行微调，[222]在医学成像模态上进行微调，[223, 224, 225]在时空视频输入上进行微调，以及[226]用于图表理解的适应性调整。
基于蒸馏的微调：大型“教师”模型有时用于生成标记数据或推理依据，较小的“学生”模型在这些数据上进行微调，这通常称为知识蒸馏[227, 228]。在大语言模型的背景下，思维链蒸馏[185]就是一个例子，强大的教师大语言模型生成中间推理步骤，学生大语言模型被微调以重现最终答案和推理链。逐步蒸馏[229]在生成最终答案的同时生成描述性推理依据，通过使用较小的数据集进行蒸馏来训练较小的模型。这种方法可以产生更轻量级、更快的模型，即使在零样本或少样本任务中也能保留教师模型的大部分性能[230]。

表2：现代大语言模型方法和框架的综合概述

偏好和校准监督微调：虽然人类反馈强化学习（RLHF）并非纯粹的监督学习，但它始于监督偏好或校准微调阶段。此阶段使用人工标记或排序的示例，教导模型区分理想和不理想的输出（例如，安全与有害的输出）。通过在这些明确的偏好上进行训练，模型更符合用户的价值观，减少有害或偏离主题的生成内容。像InstructGPT [58]这样的工作表明，在奖励模型训练和强化学习更新开始之前，监督偏好数据至关重要。
高效微调：对大语言模型进行完全微调在计算和内存方面要求较高，尤其是当模型参数增长到数十亿时。为应对这些挑战，参数高效微调（PEFT）技术引入少量可训练参数或可学习提示，同时冻结模型的大部分权重。诸如LoRA [60]、Prefix Tuning [231]和Adapters [232]等方法通过在特定层中注入轻量级模块（或提示）来实现这一策略，从而显著减少内存占用。

图4展示了这些技术如何融入一个更广泛的生态系统，该生态系统涉及大语言模型的系统级优化、数据管理和评估策略。特别是，参数高效微调方法可以与量化和剪枝方法[190, 188]相结合，进一步降低内存使用和计算开销，使在较小的GPU甚至消费级硬件上进行微调成为可能。例如，QLoRA将4位量化与低秩适应相结合，而BitsAndBytes提供8位优化器，使大语言模型训练在资源受限的环境中更具可行性（表2）。

此外，这些参数高效微调方法仍需要监督数据来指导适应过程，但可训练参数数量的减少使其在使用领域特定或任务特定数据集时更具可行性。这在专业领域（如医学或软件开发）中尤为重要，因为这些领域的数据可能有限或标注成本高昂。如表2所示，PEFT (HF)将多种此类方法（LoRA、前缀调优等）集成到单个库中，简化了研究和生产环境中的部署流程。

将LoRA和QLoRA等高效微调设计与系统和数据优化相结合（图4），能够以经济高效的方式使大语言模型适应特定任务，如领域特定文本生成，而无需进行昂贵的完全微调。

5. 测试时缩放方法

强化学习对模型的策略进行微调，而测试时缩放（TTS）通常在不更新模型的情况下，增强推理过程中的推理能力。图5展示了测试时缩放方法的分类，根据其底层技术对这些方法进行了归类。

束搜索：束搜索最早在语音识别领域被提出[233]。它作为序列模型的解码策略而受到关注，随后被应用于神经机器翻译和语音系统[234]。随着大语言模型的普及，该算法在许多文本生成任务的近似搜索中得到应用。

束搜索的概念类似于剪枝的广度优先搜索，在每个步骤中保留概率最高的前N个部分序列（即“束”），丢弃概率较低的路径。通过限制束宽（N），它在管理指数级搜索空间的同时，试图找到一个接近最优的序列。这些束在每个解码步骤中扩展，以寻找多个可能的路径。在推理大语言模型时，这些路径使我们能够并行系统地探索多个推理链，专注于最有希望的路径。这确保了考虑高可能性的推理步骤，与贪心解码相比，增加了找到正确且连贯解决方案的机会。它传统上用于翻译、总结和代码生成等任务，在这些任务中，目标是生成高度可能的正确序列[93]。

虽然现代大语言模型通常倾向于使用随机采样（例如温度采样）来促进生成文本的多样性，但束搜索对于结构化推理问题仍然是一种有价值的技术。例如，思维树框架[84]允许插入不同的搜索算法来探索可能的“思维”或推理步骤树；其中一种实例化方式是使用束搜索（束宽为b）在每个推理步骤中保留b个最有前景的状态。在这里，束搜索用于系统地探索数学谜题和规划问题等任务的解决方案步骤，修剪不太有希望的推理分支，从而提高模型的问题解决准确性。当希望模型在其学习的分布下输出最可能的推理路径或答案时，束搜索仍然是测试时推理的强大基线。

Best-of-N搜索（拒绝采样）：Best-of-N（BoN）[235]搜索生成N个候选输出（通常通过采样），然后根据选定的标准（例如奖励模型或模型自身的似然性）选择最佳的一个[236, 237, 238]。从概念上讲，这是拒绝采样的一种应用：抽取多个样本，只保留评分最高的结果。与束搜索[233, 234]不同，束搜索是逐步扩展和修剪部分假设，而Best-of-N搜索只是独立地采样完整的解决方案，这允许更大的多样性，但计算成本更高。束搜索系统地追求最可能的序列，而Best-of-N搜索可能通过暴力采样捕获高质量但概率较低的解决方案。

在计算预算较低时，束搜索（对较难问题更有效）的性能优于Best-of-N采样；而对于较简单的任务，Best-of-N搜索的扩展性更好。

在大语言模型推理过程中，Best-of-N搜索用于在不重新训练模型的情况下提高正确性或校准度。通过采样多个答案并选择最佳候选（例如通过奖励模型或检查器），Best-of-N搜索有效地提高了问答或代码生成等任务的准确性。Best-of-N搜索易于理解和实现，几乎没有超参数，N是唯一可以在推理时调整的参数。在强化学习环境中，Best-of-N采样可以作为基线探索机制，即生成许多滚动输出，根据学习到的奖励选择最佳结果并继续，尽管这会增加计算开销。OpenAI的WebGPT使用Best-of-N搜索通过奖励模型选择最佳响应，在问答任务中取得了很强的性能[81]。Best-of-N搜索也被用作一种简单的校准方法，与其他微调技术（例如人类反馈强化学习（RLHF）[58]和直接偏好优化（DPO）[78]）相比具有很强的竞争力。研究表明，在足够强大的奖励模型的指导下，Best-of-N搜索可以接近或匹配人类反馈强化学习的结果[82, 239]。诸如推测拒绝[240]等替代方法基于此思想，并利用更好的奖励模型来提高效率。研究还强调，如果用于Best-of-N搜索的（代理）奖励函数不完善，可能会出现奖励作弊问题[241]；如果N参数变得非常大，则可能会出现稳定性问题。

在束搜索和Best-of-N搜索中使用过程奖励模型取决于问题的难度和计算预算。

计算最优缩放：计算最优缩放策略（COS）[83]是一种动态方法，旨在在大语言模型推理过程中高效分配计算资源，在不产生不必要开销的情况下优化准确性。该方法不是对所有输入应用统一的采样策略，而是将提示分为五个难度级别（从容易到困难），可以通过利用神谕难度（真实成功率）或模型预测的难度（例如，来自偏好排名模型的验证分数）来实现。分类完成后，该策略会调整计算分配：较容易的提示采用顺序优化，模型通过迭代优化其输出以提高正确性；而较难的提示则触发并行采样或束搜索，探索多个响应变体以增加找到正确解决方案的可能性。这种双重方法平衡了探索（针对具有挑战性的输入）和优化（针对接近正确的响应），确保在每单位计算资源上实现最佳性能。值得注意的是，该方法比传统的Best-of-N采样减少了四倍的计算量，同时保持了相同的性能。关键在于，通过根据问题难度匹配计算策略，它避免了在简单案例上浪费资源，同时确保在复杂任务中有足够的采样多样性。本质上，它就像大语言模型推理的“智能恒温器”，根据输入的复杂性动态调整计算量，从而实现大规模语言模型更高效、更具成本效益的部署。

计算最优缩放策略比Best-of-N基线实现了4倍的效率提升，通过优化平衡顺序/并行计算。束搜索 + 优化在简单/中等难度问题上的表现优于更大的模型。

思维链提示：思维链提示促使大语言模型生成中间推理步骤，而不是直接跳到最终答案。通过将问题分解为逻辑子步骤，思维链提示利用了模型执行多步推理的潜在能力，显著提高了在数学应用题、逻辑谜题和多跳问答等任务上的性能。

Wei等人[8]展示了思维链提示在算术和逻辑任务上的有效性，与直接提示相比有显著提升。Kojima等人[242]引入了零样本思维链，揭示了即使添加一个简单的短语“让我们一步一步地思考”，也能在足够大的模型中触发连贯的推理。随后的工作（例如Wang等人，2022 [184]）将思维链与基于采样的策略（自一致性）相结合，以实现更高的准确性。如5.4节所述，思维链格式的数据也用于监督微调，并被证明有助于使模型响应更具逐步性。

微调模型以顺序优化答案，利用先前的尝试。顺序优化在较容易的问题上表现出色，而并行采样（探索）对较难的问题更有益。

自一致性解码：自一致性是Wang等人[243]提出的一种解码策略。它作为思维链提示的简单贪心解码的替代方法被提出。它基于为一个问题采样多个不同推理路径的思想，首次表明对这些路径进行边缘化可以显著提高算术和推理问题的准确性。换句话说，它允许模型从多种角度思考，然后基于共识得出结论，这在许多推理场景中提高了正确性。

自一致性方法通过从模型中采样一组不同的推理链（通过提示工程鼓励不同的思维链，并使用温度采样），然后让模型为每个链输出一个最终答案。该方法不是依赖单个推理链，而是选择在这些多个推理路径中最一致的答案，实际上是在排除潜在推理后进行多数投票或选择概率最高的答案。其基本思想是，如果一个复杂问题有唯一正确答案，不同的有效推理路径应该收敛到相同的答案。通过汇总许多推理链的结果，模型可以“决定”哪个答案得到的支持最多。在应用中，例如对于一个数学问题，可以采样20个思维链，查看出现频率最高的最终答案，该答案随后被视为模型的输出。这种方法将一次性的思维链过程转变为一种集成方法，模型在其中对自己的答案进行交叉验证。它在算术和常识推理任务中特别有用，因为推理的多样性有助于提高准确性。

在某些情况下，具有测试时计算资源的较小模型可以超越大得多的模型。

自一致性通常与其他方法结合使用：例如，采样多个推理链，然后对最常见的答案应用验证器。它的优势在于无需新的训练，只需要额外的采样，这使其成为一种流行的测试时缩放策略，用于从大语言模型中获得更可靠的答案。它还启发了其他变体，例如通用自一致性[244]将原始思想（最初仅适用于对单个最终答案进行多数投票）扩展到更一般的生成任务，如总结和开放式问答。

思维树：思维树（ToT）框架[84]对思维链方法进行了推广，允许模型分支到多个可能的思维序列，而不是遵循单个线性链。因此，它将语言模型推理问题构建为树搜索，借鉴了受人类问题解决启发的经典人工智能搜索方法[245, 37]。思维树将中间推理步骤视为搜索树中的“节点”，并使用语言模型从给定状态扩展可能的下一步（思维）。模型不是采样一个长推理路径，而是探索一个分支思维树，并可以进行前瞻和回溯。在每个步骤中，大语言模型可能生成几个候选的下一步思维，启发式方法或价值函数评估每个部分解决方案状态。然后，搜索算法（例如深度优先、广度优先、束搜索）在这个树中导航，决定进一步探索哪些分支。这种方法允许系统地探索不同的推理策略：如果一条路径陷入死胡同，模型可以返回较早的状态并尝试不同的分支（与标准思维链不同，标准思维链会坚持一条推理线）。实际上，思维树是一种迭代提示过程，模型在其中生成思维、评估它们并改进其方法，模仿人类在脑海中规划解决问题的各种方式。

思维树在诸如谜题、规划任务或游戏等复杂问题中特别有用，这些问题需要多个步骤和策略性探索，并且通过系统地搜索解决方案空间，其性能优于更简单的思维链方法。它提供了一个灵活的框架——可以根据任务插入各种生成策略（例如采样与提示）和搜索算法（广度优先搜索、深度优先搜索、A*、蒙特卡洛树搜索）。尽管计算成本较高，但思维树表明，分配额外的“思考时间”（计算资源）来探索替代方案可以显著提高推理和规划性能。它引发了后续研究，旨在改进或利用它来实现更好的推理，例如，多智能体系统已与思维树相结合：不同的大语言模型“智能体”并行生成思维，验证器智能体修剪不正确的分支，与单智能体思维树相比，提高了准确性[246]。

在推理时进行计算可以超越增加模型参数的效果，特别是对于像数学问题这样具有挑战性的推理任务。

思维图：思维图（GoT）[247]框架通过基于图的结构扩展了思维树，实现了比严格的层次树更灵活、更高效的推理过程。两种方法在思维表示上有所不同：在思维树中，推理的每个步骤都被结构化为树中的一个节点，具有固定的父子关系；而思维图将思维表示为图中的节点，允许更灵活的依赖关系和相互连接。

在思维扩展策略方面，思维树遵循传统方法，在每个步骤中生成多个思维候选，使用基于树的搜索策略进行探索，并根据启发式方法进行修剪，然后选择最优路径。相比之下在思维扩展策略方面，思维树遵循传统方法，在每个步骤中生成多个思维候选，使用基于树的搜索策略进行探索，并根据启发式方法进行修剪，然后选择最优路径。相比之下，思维图采用基于图的思维扩展，允许思维动态地相互连接。这实现了三个关键转换：聚合（将多个解决方案合并为一个统一答案）、优化（随着时间的推移迭代改进思维）和生成（产生多样化的候选方案）。思维图不是在严格的层次结构中导航，而是使用一个体积度量来优先考虑思维，并以最优方式探索路径，减少不必要的计算。

思维树的一个关键限制是其受限的回溯——一旦一个分支被丢弃，就不会再被考虑。思维图通过允许迭代优化克服了这一限制，在迭代优化中，先前的思维可以被重新访问、修改和改进。这种迭代性质在复杂推理任务中特别有用，因为初始思维可能需要调整。此外，通过合并部分解决方案减少冗余计算，思维图的计算效率显著提高。

思维图提高了问题解决的效率和适应性，使其在需要复杂推理的任务中优于思维树。

基于置信度的采样：在基于置信度的采样中，语言模型生成多个候选解决方案或推理路径，然后根据模型对每个结果的置信度进行优先排序或选择[248]。这可以通过两种方式实现：（a）选择：生成N个输出并选择具有最高对数概率的输出（即模型最有信心的输出）。这本质上是基于概率的Best-of-N选择——模型选择它认为最可能正确的答案。（b）引导探索：在探索推理树或多步解决方案时，使用模型的标记概率来决定扩展哪个分支（优先扩展置信度较高的分支）。换句话说，模型的概率估计作为一种启发式方法，指导在解决方案空间中的搜索[249]。与纯粹的随机采样相比，基于置信度的方法使过程偏向于模型认为正确的方向，有可能减少在低可能性（且往往不正确）路径上的探索浪费。

基于置信度的策略已在推理时得到应用，例如，用于语言模型生成的基于树的搜索[248]为每个可能的完成（叶节点）分配一个置信度分数。该算法根据这些置信度分数对叶节点进行采样，以决定扩展哪些路径。类似地，一些推理方法使用模型对答案的估计可能性来决定何时停止或是否提出后续问题——本质上，如果模型的置信度较低，它可能会触发进一步的推理（一种自我反思形式）。基于置信度的选择也用于集成设置中：例如，一个语言模型可能生成多个答案，而一个辅助模型评估每个答案正确的置信度，选择置信度最高的答案。这在医疗问答等任务中得到了探索，在这些任务中，语言模型给出答案和置信度分数，只有高置信度的答案才被信任或返回[250]。

基于验证器的搜索：大语言模型中的这种验证方法[251]通过生成多个候选响应并使用自动验证系统选择最佳响应来提高答案质量。这种方法将重点从增加预训练计算转移到优化测试时计算，使模型能够在推理过程中通过结构化推理步骤或迭代优化“思考更长时间”。该方法涉及两个主要步骤：生成：模型（或“提议者”）生成多个答案或推理路径，通常使用高温采样或多样化解码等方法。
验证：验证器（例如奖励模型）根据预定义的标准（如正确性、连贯性或与期望过程的一致性）评估这些候选。验证器根据其评估重点进行分类：
- • 结果奖励模型（ORM）：仅判断最终答案（例如数学解决方案的正确性）。
- • 过程奖励模型（PRM）：评估推理步骤（例如思维链中的逻辑连贯性），提供细粒度的反馈以修剪无效路径。

有几种技术属于这个范式，增强了基于验证的优化。Best-of-N采样涉及生成多个答案并通过验证器（ORM/PRM）对它们进行排名，选择得分最高的答案，这是一种简单而有效的提高答案正确性的方法。带有PRM的束搜索跟踪得分最高的推理路径（束）并尽早修剪低质量的步骤，类似于思维树方法，在推理路径探索中平衡广度和深度。蒙特卡洛树搜索通过扩展有前景的推理分支、模拟滚动和反向传播分数来平衡探索和利用，在搜索深度和验证置信度之间提供了最佳权衡。多数投票（自一致性）汇总来自多个样本的答案并选择最频繁的答案，避免了显式验证器，在多个响应的一致性表明正确性的设置中效果良好。

ORM适用于正确性为二元（对/错）且易于评估的任务。

PRM在多步推理中很有用，确保中间步骤遵循逻辑进展。

通过优化实现自我改进：这种方法指的是大语言模型通过自我评估和迭代优化来增强其输出的能力。这个过程使模型能够在推理过程中动态地优化其响应，而不是仅仅依赖预训练的权重。一种值得注意的方法是自我优化[252]，其中大语言模型生成一个初始响应，对其进行批判，然后根据自我生成的反馈优化输出。这个迭代过程持续进行，直到模型达到令人满意的结果。这种技术已被证明在各种任务中提高了性能，包括数学推理和代码生成。这个过程遵循以下关键步骤：a）初始生成：模型生成一个答案或推理路径。b）自我批判：模型审查自己的响应，识别错误、不一致或需要改进的地方。c）优化：模型根据批判调整其响应并生成改进版本。d）迭代：该过程重复，直到输出满足预定义的质量阈值或不再改进。

另一种方法称为自我完善[253]，其中模型逐步优化给定的问题，使其更易于理解和解决。通过重新表述或重构问题，模型增强了自身的理解并提供更准确的解决方案。自我完善涉及对问题陈述进行逐步优化，使其更易于理解和解决。模型首先重新表述或重构问题以提高清晰度，然后将复杂查询分解为更简单的子问题，并优化模糊输入以确保精确理解。通过在解决问题之前重构问题，模型提高了其理解能力并生成更准确的解决方案。

自我改进方法代表了大语言模型优化的范式转变，强调主动推理和内部反馈，而不是静态的预训练。通过对自己的响应进行迭代，模型在广泛的应用中实现了更高的一致性和准确性。

蒙特卡洛树搜索：蒙特卡洛树搜索（MCTS）[254]基于将蒙特卡洛模拟应用于游戏树搜索。它在游戏领域取得成功后受到关注，特别是在2016年为AlphaGo[255]提供支持，通过策略和价值网络搜索可能的走法。这以及在其他棋盘和视频游戏中的应用，展示了蒙特卡洛树搜索在不确定性下顺序决策的能力。

蒙特卡洛树搜索是一种随机搜索算法，通过执行许多随机模拟来构建决策树。它最著名的应用是在游戏状态中找到好的走法，但它可以应用于任何我们可以模拟结果的问题。该算法迭代地执行以下操作：（a）根据启发式方法（如UCT[256]，它选择具有高置信上限的节点）从根节点选择一条路径，（b）从该路径的末端扩展一个新节点（一个先前未访问的状态），（c）从该新状态模拟一个随机滚动以获得结果（例如在游戏中是赢还是输，或者是某种奖励），（d）将结果反向传播到树中，以更新节点的值并为未来的选择提供信息。重复这些模拟数千次，将搜索集中在树中最有前景的分支上。本质上，蒙特卡洛树搜索使用随机采样来评估不同动作序列的潜力，逐渐使搜索偏向于平均结果更好的序列。

在大语言模型推理中，我们可以将文本生成视为一个决策过程，并使用蒙特卡洛树搜索来探索不同的延续。例如，在给定问题（根节点）的情况下，每个可能的下一步推理步骤或答案都是一个动作；模拟可以意味着让大语言模型继续生成直到得到最终答案（可能带有一些随机性），而奖励可以是答案是否正确。通过反复这样做，蒙特卡洛树搜索可以识别出哪个思维链或答案具有最高的经验成功率。蒙特卡洛树搜索在推理中的吸引力在于它可以通过智能采样而不是穷举搜索来处理大型搜索空间，并且它自然地包含了不确定性和探索。

训练验证器对中间步骤（通过蒙特卡洛滚动）进行评分，而不仅仅是对最终答案评分。

最近的努力将蒙特卡洛树搜索与大语言模型相结合，以解决复杂的推理和决策任务。一个例子是使用蒙特卡洛树搜索进行查询规划：蒙特卡洛思维搜索[257]，其中大语言模型被引导提出一系列子问题以找到答案。Jay等人[257]使用一种基于蒙特卡洛树搜索的算法“蒙特卡洛推理器”，将大语言模型视为一个环境：每个节点是一个提示（状态），每个边是一个动作（例如要问的特定问题或要采取的步骤），并且使用随机滚动来评估结果。这种方法使系统能够有效地探索可能的推理路径空间，并选择一个高奖励的答案路径，在科学问答任务中优于简单采样。类似地，蒙特卡洛树搜索已应用于大语言模型的代码生成[258]——该算法探索不同的代码路径（使用模型提出代码补全并进行测试）以找到正确的解决方案。另一项工作将多个大语言模型与蒙特卡洛树搜索集成，将每个模型的输出视为一个分支，并使用奖励模型来模拟结果[259]。早期结果表明，基于蒙特卡洛树搜索的推理可以解决单遍或贪心方法经常遗漏的问题，尽管计算量更大[74]。缺点是蒙特卡洛树搜索可能比简单的采样或束搜索慢得多，最近的研究正在通过提高效率（例如通过状态合并[87]）来解决这个问题。总的来说，蒙特卡洛树搜索将规划算法的优势带入大语言模型推理中，使大语言模型能够通过模拟滚动“前瞻”并做出更明智的推理选择，就像它在游戏人工智能中所做的那样。

测试时计算不是预训练的一对一替代方案，但在许多情况下提供了可行的选择。

思维行动链推理：大语言模型在推理任务中表现出色，但在推理时严重依赖外部指导（例如验证器）或大量采样。现有的方法如思维链[8]缺乏自我纠正和自适应探索的机制，限制了它们的自主性和泛化能力。Satori[260]引入了一种两阶段训练范式，首先调整模型的输出格式，然后通过自我改进增强其推理能力。在阶段1（格式调整）中，模型接触到由一个包含生成器、评论家和奖励模型的多智能体框架生成的10,000个合成轨迹。这种监督微调帮助模型使用元动作标记生成特定推理格式的输出，尽管它可能在这些示例之外的泛化方面仍有困难。在阶段2（通过强化学习进行自我改进）中，模型采用带有重启和探索策略的近端策略优化（PPO）[260]，这允许它从中途步骤（无论是否正确）重新开始，以优化其推理过程。模型根据基于规则的正确性、反思奖励和5.9节中解释的基于偏好的结果奖励模型反馈的组合获得奖励，从而激励在测试时为更困难的问题分配更多计算资源，并在复杂任务中实现扩展推理。

多智能体框架和先进的微调策略越来越多地被探索用于增强大语言模型的推理能力。多智能体大语言模型训练（MALT）[261]引入了一种结构化方法，其中生成、验证和优化步骤分布在专门的智能体之间，允许迭代自我纠正和改进推理链。同样，优化偏好校准仍然是确保大语言模型安全性和有用性的关键挑战[262]。像双因素偏好优化（BFPO）[263]这样的方法将人类反馈强化学习目标重新构建为单个监督学习任务，在保持强大校准的同时减少了人工干预。除了基于文本的推理，多模态方法如多模态思维可视化（MVoT）[264]通过结合视觉表示扩展了思维链提示，显著提高了空间推理任务的性能。这些进展突出了对结构化多智能体协作、安全感知优化和多模态推理的日益增长的需求，以解决大语言模型推理中的基本限制[265, 266, 267]。

预训练与测试时缩放：预训练和测试时缩放是两种不同的提高大语言模型性能的策略，在计算成本和有效性方面各有不同的权衡。预训练涉及扩展模型参数或增加训练数据以增强能力，需要大量的前期计算投资[3]。相比之下，测试时缩放优化推理时的计算（例如迭代优化、基于搜索的解码或自适应采样），允许在不修改基础模型的情况下提高性能。

从性能与成本的角度来看，测试时缩放在简单到中等难度的任务（例如MATH基准测试）上可以实现与大14倍的模型相当的结果，同时在计算密集型场景中通过减少4倍的浮点运算次数（FLOPs）来降低推理成本[268]。然而，对于最困难的任务或当推理计算约束较高时，预训练仍然更优越，因为更大的预训练模型本质上编码了更深层次的推理能力。

在推理令牌（Y）有限的情况下（例如自我改进设置），具有测试时计算能力的较小模型可以在简单/中等难度问题上超越大14倍的模型。

在使用场景方面，测试时缩放适用于推理预算灵活或基础模型在任务中已表现出一定能力的场景。相反，预训练对于需要全新能力的任务（例如在新领域进行推理）至关重要，在这些任务中，仅靠推理时的优化可能不够。

这两种方法之间存在显著的权衡。测试时缩放降低了前期训练成本，使其对于灵活的即时优化具有吸引力，但需要在推理时进行动态计算分配。另一方面，预训练虽然初始成本高，但保证了一致的性能，无需额外的运行时开销，使其适合大规模API部署或对延迟敏感的应用程序。总体而言，测试时缩放和预训练本质上是互补的。未来的大语言模型系统可能会采用混合方法，即较小的基础模型通过预训练获取基本的知识，而测试时缩放通过自适应的按需计算动态地增强响应。这种协同作用使得大规模模型的部署更加经济高效。

对于基础能力选择预训练，对于准确的上下文感知优化选择测试时缩放。

6. 大语言模型微调评估的基准测试

为了评估大语言模型微调阶段的成功与否，人们提出了一系列涵盖多个领域的基准测试：推理任务、校准、多语言能力、一般理解以及对话和搜索任务。一个结构良好的评估框架能够全面了解大语言模型在各种任务中的优势和局限性。这些基准测试在大语言模型的后处理阶段起着关键作用，在这个阶段，模型会进行微调、校准、校准和优化，以提高响应的准确性、鲁棒性和道德合规性。接下来，我们将解释主要的基准测试组。表3提供了这些基准测试组下关键数据集的概述。

表3：推理、强化学习校准和多语言数据集的综合概述。这里，逐点和成对指的是评估模型在各种任务上性能的不同方法。

推理基准测试：这些基准测试评估大语言模型执行逻辑、数学和科学推理的能力。数学推理数据集，如MATH[269]、GSM8K[270]和MetaMathQA[271]，测试模型在问题解决、多步算术和基于定理的问题公式化方面的能力。科学和多模态推理基准测试，如WorldTree V2[272]和MMMU[274]，评估在物理、化学和多模态理解方面的知识，这对于大语言模型生成响应中的事实核查和验证过程至关重要。此外，像PangeaBench[273]这样的数据集将推理任务扩展到多语言和文化领域，使模型能够优化跨语言推理。这些基准测试有助于确定模型处理结构化知识和应用逻辑推理的能力。
强化学习校准基准测试：强化学习校准基准测试是大语言模型校准和微调优化的核心。它们通过人类反馈强化学习来优化响应生成、道德约束和与用户一致的输出。数据集，如HelpSteer[280]和UltraFeedback[281]，基于多属性评分和与用户指令的一致性来评估模型。Anthropic的HH - RLHF[121]探索模型通过人类反馈强化学习学习人类偏好优化的程度。D4RL[282]和MetaWorld[283]专注于机器人控制和离线强化学习，这对自主模型决策具有重要意义。MineRL[284]将强化学习测试扩展到复杂环境，如基于Minecraft的交互，这对于在自适应决策环境中训练大语言模型很有用。
多语言评估：多语言基准测试对于大语言模型在跨语言泛化、翻译适应和低资源语言微调方面的后处理至关重要。CulturaX[285]和PangeaIns[286]评估在150多种语言中的标记化、翻译和指令遵循情况，确保模型输出的公平性和多样性。TydiQA[287]和MM - Eval[289]针对跨语言问答任务，测试模型在不同语言中理解和回答问题的能力。XWinograd[290]和MLQA[291]通过评估跨语言语言任务，如自然语言推理和文本蕴涵，进一步推动了模型的多语言能力。这些基准测试对于优化大语言模型在全球多样化用户群体中的实用性至关重要。
一般理解和知识基准测试：这些基准测试衡量大语言模型的广泛知识、上下文理解和推理能力。常识推理数据集，如CommonsenseQA[292]、PIQA[293]和OpenBookQA[294]，评估模型对日常知识和世界知识的理解。TruthfulQA[295]和RealToxicityPrompts[296]专注于真实性和有害性检测，确保模型输出可靠且符合道德规范。HellaSwag[297]和Winograd Schema Challenge[298]测试模型在解决复杂语言理解任务方面的能力，如完成故事和解决指代消解问题。这些基准测试对于微调大语言模型以准确处理各种自然语言任务至关重要。
对话和搜索任务基准测试：对话和搜索任务基准测试评估大语言模型在多轮对话、信息检索和用户偏好理解方面的性能。CoQA[299]、DuoRC[300]和MuSiQue[301]专注于多轮对话任务，衡量模型在保持上下文、生成连贯响应和理解用户意图方面的能力。MS MARCO[302]和TREC CAR[303]是信息检索基准测试，评估模型检索相关信息和回答复杂问题的能力。GSM8K - Chat[304]和MMLU - Chat[305]将这些概念扩展到聊天场景，评估模型在对话环境中进行数学和一般知识推理的能力。这些基准测试对于微调大语言模型以提供有效的用户交互和准确的信息检索至关重要。

7. 开放挑战和未来研究方向

尽管大语言模型在微调方面取得了显著进展，但仍存在一些需要解决的挑战，以进一步提高其性能、可靠性和适用性。这些挑战为未来的研究提供了重要方向：

避免灾难性遗忘：微调过程中，大语言模型可能会忘记在预训练阶段学到的知识，这种现象称为灾难性遗忘。这可能导致模型在特定任务上的性能提高，但在其他任务上的性能下降。开发有效的正则化技术和知识保留机制对于减轻灾难性遗忘并确保模型在微调后保持广泛的能力至关重要。未来的研究可以探索如何在不影响模型在特定任务上的性能的情况下，更好地保留预训练知识。这可能涉及到改进参数更新策略、使用知识蒸馏技术或开发新的架构来分离特定任务的学习和一般知识的保留。
减少奖励作弊：在强化学习微调过程中，大语言模型可能会学会操纵奖励信号以最大化奖励，而不是生成真正有用或准确的输出，这种现象称为奖励作弊。设计更强大的奖励模型和优化算法对于防止奖励作弊并确保模型生成符合用户期望和道德标准的输出至关重要。未来的研究可以专注于开发更复杂的奖励函数，这些函数能够更好地捕捉用户偏好和任务目标，同时对模型的行为施加更严格的约束。此外，探索对抗训练技术或使用多个奖励模型可以帮助检测和防止奖励作弊行为。
提高推理能力：尽管大语言模型在某些推理任务上表现出了令人印象深刻的能力，但它们的推理能力仍然有限，特别是在处理复杂的多步推理问题时。开发更有效的推理技术，如思维链推理、思维树推理和基于搜索的推理，对于提高大语言模型的推理能力并使其能够处理更复杂的任务至关重要。未来的研究可以探索如何将这些推理技术与其他方法，如强化学习和微调，相结合，以进一步提高模型的推理性能。此外，研究如何使模型能够更好地解释其推理过程可以提高模型的可解释性和可信度。
优化推理时间权衡：在实际应用中，大语言模型的推理时间是一个重要的考虑因素。测试时缩放方法可以提高模型的推理能力，但它们也可能增加推理时间和计算成本。开发更高效的测试时缩放方法，如计算最优缩放和基于置信度的采样，对于在不显著增加推理时间的情况下提高模型的推理能力至关重要。未来的研究可以专注于优化这些方法，以减少计算开销并提高推理效率。此外，探索如何在推理时间和推理准确性之间找到更好的平衡可以使模型在不同的应用场景中更具实用性。
增强模型对齐：使大语言模型的输出与人类意图和道德标准保持一致是一个持续的挑战。开发更有效的模型对齐技术，如人类反馈强化学习、人工智能反馈强化学习和直接偏好优化，对于确保模型生成的输出符合用户期望和道德规范至关重要。未来的研究可以探索如何改进这些技术，以更好地捕捉人类偏好和价值观，同时减少对人工注释的依赖。此外，研究如何使模型能够在不同的文化和社会背景下保持一致的行为可以提高模型的通用性和可接受性。
提高可扩展性和适应性：随着大语言模型的规模和复杂性不断增加，提高其可扩展性和适应性以处理不同类型的任务和数据变得越来越重要。开发更有效的参数高效微调技术，如低秩适应、前缀调优和适配器，对于在不显著增加计算成本的情况下使模型适应不同的任务和领域至关重要。未来的研究可以专注于进一步改进这些技术，以提高模型的性能和效率。此外，探索如何使模型能够在不同的硬件平台上高效运行可以扩大模型的应用范围。
确保数据质量和多样性：微调大语言模型的性能在很大程度上取决于所用数据的质量和多样性。确保训练数据的高质量、无偏差和多样性对于防止模型产生偏差或不准确的输出至关重要。未来的研究可以专注于开发更好的数据收集和预处理技术，以确保训练数据的质量和多样性。此外，研究如何使模型能够处理噪声或不完整的数据可以提高模型的鲁棒性和可靠性。
解决多模态推理挑战：随着多模态大语言模型的出现，解决多模态推理中的挑战变得越来越重要。这些挑战包括整合不同模态的信息、理解模态间的关系以及生成与多模态输入一致的输出。开发更有效的多模态推理技术，如多模态思维可视化和基于视觉的思维链推理，对于提高多模态大语言模型的性能和实用性至关重要。未来的研究可以探索如何更好地整合不同模态的信息，以及如何使模型能够理解和利用模态间的关系。此外，研究如何评估多模态大语言模型的性能可以为模型的开发和优化提供有价值的指导。
促进可解释性和透明度：大语言模型的复杂性使得理解其决策过程和输出变得困难。促进可解释性和透明度对于建立用户对模型的信任并确保其负责任的使用至关重要。开发更有效的可解释性技术，如注意力可视化、推理过程解释和模型行为分析，对于提高大语言模型的可解释性和透明度至关重要。未来的研究可以专注于开发更直观和易于理解的可解释性方法，以及如何将这些方法集成到模型的设计和评估中。此外，研究如何使模型能够向用户解释其决策过程可以提高用户对模型的接受度和信任度。
探索多智能体协作：多智能体大语言模型系统为解决复杂任务和提高模型性能提供了新的途径。探索多智能体协作技术，如多智能体大语言模型训练和基于多智能体的推理，对于开发更强大和智能的大语言模型系统至关重要。未来的研究可以专注于如何设计有效的多智能体系统架构，以及如何使智能体之间能够进行有效的协作和通信。此外，研究如何评估多智能体大语言模型系统的性能可以为系统的开发和优化提供有价值的指导。

8. 结论

大语言模型的微调是一个快速发展的领域，在自然语言处理及其他领域具有巨大的潜力。微调、强化学习和测试时缩放等技术为优化大语言模型的性能、提高其推理能力以及使其输出与人类意图和道德标准保持一致提供了有效的途径。然而，该领域仍面临一些挑战，如灾难性遗忘、奖励作弊、推理时间权衡以及模型对齐等问题。

为了克服这些挑战，未来的研究需要专注于开发更有效的技术和方法。这包括改进微调技术以避免灾难性遗忘，设计更强大的奖励模型以防止奖励作弊，以及开发更高效的推理技术以提高模型的推理能力。此外，优化推理时间权衡、增强模型对齐、提高可扩展性和适应性、确保数据质量和多样性、解决多模态推理挑战、促进可解释性和透明度以及探索多智能体协作等方面的研究也将对大语言模型的发展产生重要影响。

通过解决这些挑战并推动该领域的研究，我们可以期望大语言模型在各种应用中发挥更大的作用，为自然语言处理及其他领域带来更多的创新和突破。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述