向DeepSeek看齐，谷歌提出 LARPO | 颠覆LLM对齐难题，从信息检索视角开创全新优化方法

本文链接：https://blog.csdn.net/m0_59235245/article/details/145688513

大语言模型（LLMs）凭借推理、编码和通信能力，在人工智能领域引发了革命，推动了各行各业的创新。它们的真正潜力取决于有效的对齐，以确保正确、可靠和道德的行为，解决诸如虚假信息、幻觉、偏见和滥用等挑战。虽然现有的基于强化学习（RL）的对齐方法复杂难懂，但直接优化方法提供了一种更简单的替代方案。

在这项工作中，作者借鉴了成熟的信息检索（IR）原则，提出了一种新的直接优化方法，用于LLMs的对齐。作者提出了一种系统框架，将LLMs的对齐与IR方法联系起来，将LLMs的生成和奖励模型映射到IR的检索-重排范式。在此基础上，作者提出了LLM对齐作为检索偏好优化（LARPO），这是一种新的对齐方法，可以提升整体对齐质量。

广泛的实验验证了LAR PO的有效性，在AlpacaEval2和MixEval-Hard上的平均改进分别达到38.9%和13.7%。LARPO通过整合IR基础，为推进LLMs的对齐开辟了新的途径，为未来的研究提供了有希望的方向。

1. 引言

大语言模型（LLMs）在包括对话建模、推理和代码生成在内的广泛领域展现了惊人的能力。在确保其伦理、安全和高质量性能的同时，充分发挥LLMs的潜力取决于有效的对齐。然而，现有的基于强化学习的LLM对齐方法（例如PPO）涉及多阶段训练，优化难度较大。为此，提出了直接LLM偏好优化方法（例如DPO）以简化对齐过程。

在本工作中，作者进一步提升了直接大语言模型（LLM）偏好优化，重点关注引入信息检索（IR）的视角。信息检索方法与LLM对齐技术之间存在显著的平行关系。例如，IR中的检索-重排框架，该框架使用检索器进行广泛的语义匹配以生成候选集，并使用重排器进行细粒度优化，这与LLM对齐中的最佳N方法提供了有力的类比。在这个类比中，LLM充当检索器，而奖励模型则充当重排器。此外，LLM生成和IR检索器中普遍使用的双编码器架构，以及奖励模型和IR重排器对跨编码器架构的依赖，进一步强调了这种协同作用。利用已建立的信息检索技术，有可能开发出基于IR原则的、易于实现的LLM对齐方法，从而提高对齐质量。

尽管LLM对齐与信息检索（IR）之间存在着有前景的联系，但对此协同效应的系统探索仍然不足。具体存在三个关键差距：（1）LLM对齐机制与核心IR原则之间的明确映射尚未建立；（2）对LLM对齐方法进行实证评估的研究仍显不足；（3）缺乏对LLM对齐在IR场景中实际应用效果的综合分析。

通过信息检索（IR）的视角来看，大语言模型（LLMs）的研究相对较少；并且（3）在LLM对齐方面，已经证明有效的IR技术，如检索器优化、硬负样本挖掘和候选列表构建，尚未得到充分利用。本文通过系统地连接LLM对齐和IR方法，直接填补了这些空白。作者的贡献有四个方面：

作者提出一个综合框架，将大语言模型（LLM）对齐技术与已建立的情报检索（IR）原则相结合，为LLM对齐提供了新的视角。
作者证明了三个关键信息检索（IR）原则——检索器优化目标、硬负样本挖掘和候选列表构建——对于提升大语言模型（LLM）对齐的重要性。
基于这些见解，作者提出了一种新颖的对齐方法，即作为检索偏好优化的LLM对齐（LAR PO），该方法显著提升了对齐质量，在AlpacaEval2和MixEval-Hard上的相对平均改进率分别为38.9%和13.7%。
作者进一步进行实证研究，使用信息检索（IR）指标评估大语言模型（LLM）的性能，分析各种训练后技术的影响。

总之，这项工作在信息检索（IR）和大语言模型（LLM）对齐之间建立了关键联系，既提供了新的见解，又提供了推动该领域发展的实用方法。

2. 从信息检索的角度看大语言模型

2.1. 信息检索基础

信息检索系统通常采用两阶段过程，包括检索器和重排器。检索器通常实现为双编码器（图1），能够高效地从给定 Query q的语料库C中识别出一组潜在相关段落，记为。这是通过使用粗粒度相似度函数实现的，，其中和分别代表 Query 和段落编码器：

然而，由于语料库的规模，检索器可能无法准确捕捉到细粒度的 Query /篇章相似性，使用简单的点积交互函数。因此，采用交叉编码器（图1）实现的再排序器被用来细化检索到的篇章的排序。再排序器使用细粒度相似性函数，，生成一个较小的顶级篇章集合，，其中是一个可学习的线性层。在这里，再排序器采用交叉编码器，将 Query /篇章作为输入并一起编码，而检索器采用双编码器进行单独的 Query /篇章编码。

结果排序的段落按如下顺序排列：，其中

2.2. 作为重排器的奖励模型

在推理过程中，一个大语言模型（LLM）通过建模概率分布来根据输入 Prompt生成响应。假设存在一个固定的最大序列长度和一个词汇空间，所有可能的响应集合可以定义为。作者可以通过信息检索（IR）的视角来理解这一过程。 Prompt可以被视为与 Query类似，所有可能的响应集合可以被视为语料库，而生成的响应可以被视为检索到的段落。因此，给定一个 Prompt，LLM 有效地充当了一个检索器，从响应空间中搜索最可能的响应：

与信息检索（IR）中的类似。

此类比进一步得到了LLMs架构的支持。如图1所示，使用LLMs的生成建模可以解释为双编码器模型的匹配过程。 Prompt 被LLM编码成向量表示，而响应 Token 则表示为 Token Embedding 向量。对于每个 Token 位置的解码，通过点积比较 Prompt 嵌入（通常来自LLM最后一层的隐藏状态）和词汇 Token Embedding ，以确定所选 Token 对于响应的可能性。

此外，奖励模型将 Prompt 和响应都作为输入，其功能与信息检索中的交叉编码器（即重排器）类似。为了提升大语言模型（LLM）的性能，已经开发出各种推理时策略，包括最佳N个采样和多数投票。这些策略可以解释为检索器和重排器的不同配置，具体总结见附录表5。

2.3. 长语言模型微调作为检索器优化

监督微调作为直接检索器优化。检索器训练旨在实现准确检索，通常采用对比学习与InfoNCE损失来最大化检索给定 Query 的黄金段落的概率。这可以表示为：

对齐的背景下，监督微调（SFT）旨在使用 Prompt -响应对快速将模型适配到目标任务。

SFT通过最大化条件概率来实现，如下所示：

表示的第个 Token ，代表 Prompt 词与的前缀 Token 的拼接，产生上下文表示，而是 Token Embedding 函数。

因此，SFT目标可以解释为多个检索优化目标的组合。在这个类比中，充当 Query 编码器，则作为段落（或在这种情况下， Token ）编码器。

偏好优化作为重排检索器蒸馏。在检索器训练中，仅基于 Query /真实文档对进行优化可能不是最优的，尤其是在使用批内负样本以提高效率时。通过从更强大的重排器中提取知识到检索器可以提高性能。这个蒸馏过程可以表示为，其中由重排器根据规则生成的新的数据用于优化检索器，目标函数为。类似地，在LLM对齐中，偏好对齐阶段通常紧随监督微调（SFT）之后，以进一步利用外部奖励模型有效地吸收偏好监督。PPO和迭代DPO等方法体现了这种方法。

在这里，LLM（被视为检索器）生成响应，然后由奖励模型（被视为重排器）对这些响应进行评分。这些评分用于创建新的训练数据，有效地从奖励模型蒸馏到LLM：。因此，偏好优化可以被视为一种重排器到检索器蒸馏的形式，类似于传统信息检索中使用的流程。

作者在附录B中进行了实证研究，以从信息检索（IR）的角度理解SFT和偏好优化，并在附录C和D中进行了进一步讨论。

2.4. 作为信息检索模型的LLM的经验洞察

评估LLM作为检索器。评估检索器的常用指标是Recall@N，该指标评估前N个检索到的段落是否包含与给定 Query 相关的段落。在LLM的语境中，这相当于评估前N个生成的响应是否包含对 Prompt 的合适响应，类似于Pass@N。

为了在LLM和检索器之间建立经验联系，作者在GSM8K数据集上使用Mathstral-7b-it进行了实验，并在NQ数据集上使用e5检索器进行了实验。图2表明，增加N值可以有助于提升检索器和LLM的性能。详细分析见附录E。

贪婪解码，相当于，是LLM推理中的一种常见策略。然而，如图2(b)所示，Pass 往往不是最优解，因此增加可以显著提升性能。这突出了在LLM中采用最佳N等推理时间缩放技术在信息检索（IR）中检索器重排缩放（Zhuang等人，2023年）类似的重要性。更多结果和分析可以在附录E中找到。

3. 迭代式大语言模型对检索器的优化

迭代学习是检索器优化中的一种常见技术，如图3(a)所示，其中新训练模型的结果被用来生成新的训练数据。类似地，对于LLM对齐，迭代偏好优化已被证明可以提升性能（图3(b)）。从检索器优化的启发中，作者重新审视了迭代LLM偏好优化，重点关注以下三个方面：(1)优化目标；(2)使用硬负样本；(3)候选列表构建。基于这些方面，作者提出了一种具有信息检索（IR）视角的新LLM对齐方法，即LARPO。

3.1. 检索器优化目标

典型检索器优化目标包括成对、对比和列表式目标。在本节中，作者讨论与不同检索器优化目标对应的偏好优化变体（王等，2023）。偏好优化的优化目标如下：

如（Rafailov等，2024）中所述，上述方程的最优解为：

其中是归一化常数，是奖励模型，也可以视为一个重新排序器。根据从信息检索（IR）中对的不同假设，作者可以获得不同的训练目标，如表1所示，证明见附录F。

成对排名。在成对（Bradley-Terry）假设 𝕣 下，策略目标变为DPO 对比排名。另一种广泛用于排名的目标是对比学习：

𝕣

它能够在单步中处理多个否定项，使得模型能够学习到更鲁棒的检索和排序表示。该技术被广泛用于密集检索器的训练。在此排序假设下，策略目标变为表1中所示的。

LambdaRank。除了成对学习和对比学习之外，列表级排序也被广泛采用，以充分利用候选列表中的综合信息。受LambdaRank的启发：

𝕣

策略优化目标变为（表1）。

ListMLE. 另一种基于列表的排序假设是ListMLE假设，它提供了理论依据和全局优化视角：

𝕣

在这种情况下，目标变为表1中所示的。

3.2 硬负样本

硬负样本对于有效的检索器训练至关重要，因为学会区分更难负样本可能有助于构建更强大的检索器。在LLM对齐中，负样本对应于给定 Prompt （x）的不希望出现的响应（）。在迭代在线策略训练中，可以根据难度递增的顺序识别出各种类型的负样本：（1）最容易的：对x的随机、无关的响应；（2）容易的：对相关但不同的 Prompt （x’）的响应；（3）难的：使用高温度生成的对x的错误响应；（4）最难的：使用低温度生成的对x的错误响应。

请注意，假设策略型大语言模型（LLM）初始化良好，如图2(b)所示（N=1），低温往往会产生更难处理的负样本，从而得到上述排名。根据Zhan等人（2021）的研究，最难的负样本可能对LLM的对齐最为重要。

3.3. 候选列表

在迭代检索器优化中，构建候选列表，该列表被重排器用于生成下一轮迭代的数据，这一点至关重要。先前的研究（Zeng等，2022年）已经确定了列表大小和候选选择等因素尤为重要。同样，在迭代偏好优化中，构建候选响应列表也是关键。作者确定了影响Y质量的两个关键因素：包容性和记忆化。

包容性指的是响应列表Y的大小。较大的Y可能包含更多信息。
记忆指的是是否将先前生成的响应包含在当前列表 Y 中以保留过去的结果。

鉴于其在IR中的重要性，然而，这些因素对LLM对齐的影响仍然在很大程度上未被充分探索。

4. 提出的解决方案：LARPO

受图3(a)中迭代检索器优化流程和IR的三个关键点启发，作者引入了LAR PO，这是一种将LLM对齐形式化为迭代检索器偏好优化的新方法。算法的细节在算法1中给出。具体来说，作者的实验设置探索了以下关键方面：(1)优化目标：作者评估了三个不同的损失函数作为排名目标，即、和。(2)硬负样本：对于给定的 Prompt ，通过参数搜索选择使用适当温度生成的较少偏好的响应来构建硬负样本。关于温度的更多细节见附录H.1。(3)候选列表：在每次迭代中，作者考虑包容性生成多个(1o)候选响应。在记忆方面，后续迭代的候选池包括所有之前生成的响应。

5. 主要结果

Baseline 。作者评估了LARPO相对于一系列已建立的偏好优化方法的性能，包括离线和在线方法。作者的离线比较集包括RRHF、SLiC-HF、DPO、IPO、CPO、KTO、RDPO和SimPO。对于在线方法，作者与迭代DPO进行比较。 Baseline 预训练权重来自。有关这些 Baseline 和作者的实验设置的更多细节请参见附录G。为了公平比较， Baseline 和LARPO都是在Ultrafeedback数据集上训练的。

数据集。作者在两个广泛使用的基准测试集AlpacaEval2和MixEval上进行了评估。这些基准测试集旨在评估模型在多样化 Query 中的对话能力。AlpacaEval2包含来自五个数据集的805个问题，而MixEval包括4000个一般问题和1000个难题。评估遵循每个基准测试集的既定协议。对于AlpacaEval 2，作者报告了原始胜率（WR）和长度控制胜率（LC）。这些基准测试集共同提供了对模型指令遵循和问题解决能力的全面评估。

结果。在AlpacaEval 2上的 Baseline 性能直接来自Meng等人（2024b），而MixEval上的性能是作者使用开源预训练权重评估的。作者采用与 Baseline 相同的LLM-Blender奖励模型进行公平比较，并探索了更强的奖励模型：FsfairX。如表2所示的结果表明，LAR PO在两个数据集上均持续优于竞争性 Baseline 方法，分别在AlpacaEval2和MixEval-Hard上实现了平均相对改进和，且与 Baseline 使用相同的奖励模型。使用更强的奖励模型，作者可以在具有挑战性的AlpacaEval2数据集上进一步将LARPO提高。有关作者实验设置的更多详细信息，请参见附录H.1。

6. 分析

本节对第3节中确定的三个因素进行了实证分析。

6.1. 检索器优化目标

实验设置。在LLMs上使用第3.1节中概述的不同学习目标进行迭代偏好优化。使用Gemma2-2b-it和Mistral-7b-it模型进行对齐实验，这些模型是在Ultrafeedback数据集上训练的。遵循Dong et al.（2024）的方法，作者进行了三次迭代训练，并在表3中报告了最终预训练权重的性能。模型评估

在AlpacaEval2和MixEval上进行了实验。详细设置见附录H.2。

观察。表3展示了结果，据此作者得出以下观察：(1) 对比优化通常优于成对优化（例如，DPO），这可能是由于其能够在每个学习步骤中纳入更多负例的能力。(2) 包括ListMLE和LambdaRank在内的列表优化方法，通常比成对和对比方法表现出更优越的性能。这归因于它们在候选列表中利用了更全面的偏好信息集。

6.2 硬负样本

实验设置。Mathstral-7b-it模型在GSM8k训练集上训练，并在GSM8k测试集上评估其性能。采用迭代DPO作为RLHF方法，将正确或黄金回复指定为正例。研究不同硬负例变体的影响，如第3.2节所述，结果如图4(a)所示。此外，通过在AlpacaEval 2数据集上的实验，考察了温度对Lambdarank目标下负硬度的影响，结果如图4(b)所示。详细设置见附录H.5和H.6。

观察。图4(a)表明，最终LLM的有效性与训练过程中使用的负样本的难度直接相关。更难度的负样本始终会导致性能更优的LLM。图4(b)进一步证明，在特定范围内，较低的温度会产生更难度的负样本，从而使得最终训练的LLM更有效。然而，过低的温度可能导致响应多样性降低，最终导致LLM对齐性能下降。

6.3 候选列表

实验设置。为了研究包容性和记忆对大语言模型对齐的影响，实验使用Gemma2-2b-it进行，采用与作者目标研究相同的训练设置。在包容性研究中，通过在列表中使用不同数量的候选者来评估训练后的大语言模型的性能。在记忆研究中，比较了三种方法：(i)仅使用当前迭代的响应，(ii)使用当前和前一个迭代的响应，以及(iii)使用当前和所有前一个迭代的响应。详细设置可参见附录H.7和H.3。

观察。图4©展示了候选列表大小对LLM对齐性能的显著影响。随着候选列表大小的增加，性能得到提升，尽管提升的速率逐渐降低。这一点是直观的，因为更大的候选列表可以贡献更多硬负例，并可能对模型学习产生益处（Qu等，2020年）。表4表明，纳入先前迭代的响应可以提升性能。这可能是因为引入先前响应可以使候选列表更加全面，并导致更好地捕捉偏好信号。更多解释见附录H.3。

7. 结论

本文研究了增加检索到的段落数量对长上下文LLM在检索增强生成（RAG）系统性能的影响。与预期相反，作者发现性能最初会提升，但随着更多段落的加入，性能反而会下降。这种现象归因于检索到的“硬负例”的负面影响。

为了缓解这一问题，作者提出了三种解决方案并进行评估：无需训练的检索重排序、针对RAG的隐式LLM微调和具有中间推理的RAG导向LLM微调。对基于训练的方法的系统分析探讨了数据分布、训练检索器和训练上下文长度的影响。有趣的未来研究方向包括探索（自动化的）位置优化和采用更先进的检索排序方法，以及使用更精细和多步骤推理链对LLM进行RAG微调。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述