LLM对齐技术综述：RLHF、RLAIF、PPO、DPO 等

最新推荐文章于 2025-04-06 23:12:00 发布

大靠山

最新推荐文章于 2025-04-06 23:12:00 发布

阅读量3.2k

点赞数 30

文章标签： langchain 知识图谱架构人工智能 python

本文链接：https://blog.csdn.net/m0_59235245/article/details/145283269

版权

1. 论文标题：《A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More》

大语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

2. 论文链接：https://arxiv.org/pdf/2407.16216

3. 作者所在机构：Salesforce

4.一句话概括该论文：论文对LLM对齐技术进行了全面综述，将相关研究论文分类为奖励模型、反馈、强化学习（RL）和优化等主题，详细解释各对齐方法，分析不同方法的优缺点，探讨未来研究方向，以帮助读者深入理解该领域现状，为研究人员提供参考。

背景

过去几十年中，通过自监督学习对 LLM 进行预训练取得了重大进步，这得益于更大的decoder-only Transformer 的发展、数万亿tokens的利用以及跨多个 GPU 的计算并行化。预训练后，指令调整被用于引导 LLM 回应人类查询。尽管有这些进步，但 LLM 仍存在一个严重问题，即它们可能生成不期望的回复，例如提供非法活动的指导，这表明 LLM 需要与人类价值观对齐。

RLHF（Reinforcement Learning from Human Feedback，从人类反馈中进行强化学习 )作为一种开创性技术应运而生，用于使 LLM 与人类期望对齐，它推动了 GPT - 4、Claude 和 Gemini 等强大模型的发展。然而，尽管 RLHF 出现后有众多研究探索进一步对齐 LLM 的方法，但目前缺乏对这些使 LLM 与人类偏好对齐的方法的全面综述。

该论文旨在填补这一空白，通过对现有文献进行分类综述，并对个别论文提供详细分析，以全面了解该领域的现状。

LLM对齐关键要素

LLM对齐的关键要素，包括奖励模型（Reward model）、反馈（Feedbacks）、强化学习（RL）政策和优化（Optimization）这四个主要方向。

1.奖励模型（Reward model）

奖励模型是经过微调的 LLM，根据提示和生成的回复分配分数。

（1）显式与隐式奖励模型（Explicit Reward Model vs. Implicit Reward Model）

RLHF 中通过收集偏好数据集来训练显式奖励模型，而隐式奖励模型则绕过此过程，如 DPO 通过建立最优奖励模型和最优策略之间的映射来对齐 LLM。

（2）点式与偏好模型（Pointwise Reward Model vs. Preferencewise Model）

原始 RLHF 使用点式奖励模型返回奖励分数，但无法直接获取成对偏好且难以处理人类标签不一致性，Nash 学习则被提出用于直接建模成对偏好。

（3）响应级与token级奖励（Response-Level Reward vs. Token-Level Reward）

在 RLHF 和 DPO 中，奖励通常在响应级别给出，但为了在每个动作后实现对齐，引入了token级奖励模型。

（4）负偏好优化（Negative Preference Optimization）

随着 LLM 能力提升，一些研究认为可仅使用提示和不期望的响应，通过 LLM 生成期望响应来进行负偏好优化。

2. 反馈（Feedbacks）

反馈包括来自人类或 AI 的偏好和二元响应，且可以是成对或列表形式。

（1）偏好与二元反馈（Preference Feedback vs. Binary Feedback）：

RLHF 收集偏好反馈，但后续研究发现二元反馈（如 “点赞” 或 “差评”）更易获取，收集偏好反馈则更具挑战性。

（2）成对与列表反馈（Pairwise Feedback vs. Listwise Feedback）****：

RLHF 收集列表式反馈并将其视为成对反馈处理，而后续研究如 LiPO 则认为将列表式偏好视为排序问题更具优势。

（3）人类与 AI 反馈（Human Feedback vs. AI Feedback）：

RLHF 中反馈由人类提供，但过程繁琐且昂贵，随着 LLM 发展，使用 AI 反馈来对齐 LLM 成为可能。

3.强化学习（RL，Reinforcement Learning）

RL 的目标是最大化奖励并最小化与初始参考模型的偏差，公式为

（1）基于参考与无参考 RL（ Reference-Based RL vs. Reference-Free RL）：

多数 RLHF 方法基于参考策略，但会引入内存负担，因此有研究提出避免使用参考策略的方法，如 SimPO 提出新目标函数以完全避免参考策略。

（2）长度控制 RL（ Length-Control RL）：

LLM 作为评估者时倾向于生成冗长回复，影响对齐效果，因此 R - DPO 和 SimPO 等方法在 RL 目标中考虑了长度控制因素。

（3）不同分歧度量 RL（ Different Divergences in RL）：

RLHF 通常使用反向 KL 散度来衡量策略间距离，但会降低响应多样性，因此有研究探索不同的分歧度量，如 α - 散度、正向 KL 散度和 Jensen - Shannon 散度等。

（4）在线与离线策略学习（On-policy or Off-policy Learning）：

在线策略学习在训练时从最新策略中采样响应，能确保响应与当前策略一致，但计算成本高；离线策略学习虽节省时间但可能使用与当前策略不一致的旧响应。

4.优化（ Optimization）

LLM 的对齐过程涉及优化，包括偏好优化和模型训练方式的优化。

（1）迭代 / 在线与非迭代 / 离线偏好优化（Iterative/Online Preference Optimization vs. Non-Iterative/Offline Preference Optimization）：

仅使用收集数据集进行对齐是非迭代 / 离线偏好优化，而当人类token新数据或 LLM 同时承担生成和评估响应的双重角色时，则可进行迭代 / 在线偏好优化。

（2）分离与合并 SFT 和对齐（ Separating SFT and Alignment vs. Merging SFT and Alignment）：

传统 RLHF 中 SFT 和对齐是顺序分离应用的，存在繁琐和易遗忘问题，ORPO将两者集成在单一步骤中，PAFT 则提出同时微调 SFT 和对齐并合并结果。

各种对齐方法汇总

RLHF/PPO

InstructGPT：OpenAI 提出的 InstructGPT 通过人类反馈进行微调，以使用户意图与语言模型对齐。它涉及奖励模型学习和 RL 策略训练两个主要步骤，使用了三个数据集，并通过实验评估了模型在不同方面的表现，如 “Helpful”“Honest” 和 “Harms”。

RLHF - Anthropic：Anthropic 对 RLHF 进行了研究，与 OpenAI 的研究在标签选择和数据收集方法上有所不同。Anthropic 发现 RLHF 对较小模型有性能影响，但对较大模型有益，并探索了在线训练模式和使用 OOD 技术等。

Online/Iterative RLHF：传统 RLHF 技术使用离线数据集存在局限性，迭代 / 在线 RLHF 通过偏好预言机训练和迭代策略优化来处理分布外数据，实验表明在线 RL 训练的策略结果有所改进。

RLAIF

RLAIF - Anthropic：RLAIF（The Reinforcement Learning from AI Feedback）框架通过使用 AI 反馈来减少获取人类偏好数据集的成本，并在两个阶段中实现了 LLM 的对齐，包括通过 CoT 框架进行监督学习和应用 RLAIF，研究表明该方法在无害性任务上表现出色。

RLAIF - Google：在 RLAIF - Anthropic 的基础上，Google 通过创建结构化提示来收集 AI 反馈，并采用两种策略（“Distilled RLAIF” 和 “Direct RLAIF”）进行 RLAIF 过程，实验在多个数据集上进行，得出了关于 RLAIF 与 RLHF 性能比较以及不同策略效果的结论。

Direct Human Preference Optimization

SLiC - HF：通过采用带正则化的最大边际排名损失来使 LLM 与人类偏好对齐，提出了两个主要变体（SLiC - HF - direct 和 SLiC - HF - sample - rank），实验表明 SLiC - HF 在性能、计算效率和实现简单性之间取得了平衡。

RSO：通过统计拒绝采样解决离线偏好优化方法中的分布不匹配问题，实验在多个数据集上进行，结果显示 RSO 在多个指标上优于先前方法，具有更好的可扩展性和跨任务泛化能力。

DPO：直接优化偏好以简化 RLHF 的训练过程，通过推导最优策略和损失函数来实现，但存在一些局限性，如对新偏好数据的需求和对分布偏移的敏感性，迭代 DPO 被提出以解决分布偏移问题。

DPOP: Smaug：针对 DPO 在处理小编辑距离数据时的问题，创建了包含更多此类数据的数据集并引入 DPO - positive（DPOP），实验在多个模型上进行，结果表明 DPOP 在某些情况下能有效防止奖励减少。

β - DPO：为解决 DPO 对偏好数据质量敏感的问题，引入动态 β 校准和 β 引导数据过滤机制，实验在多个数据集上进行，结果显示 β - DPO 在不同模型大小和采样温度下始终优于标准 DPO。

IPO：为解决 RLHF 和 DPO 的过拟合问题，引入身份偏好优化（IPO），提出了一个通用目标函数和新的损失函数，实验在基本数学用例上进行，表明 IPO 能有效避免过拟合。

sDPO：通过逐步应用 DPO 并使用更新的参考模型来改进 DPO，实验在多个数据集上进行，结果显示 sDPO 在多个任务上的得分超过了 DPO，但也提出了一些关于数据集使用和实验设计的问题。

GPO：提出广义偏好优化（GPO），将其目标函数分解为偏好优化和离线正则化两部分，类似于奖励和 KL 散度的作用。

Token - level DPO

DPO: from r to Q：证明了 DPO 能够进行token级信用分配，将 DPO 重新定义为token级马尔可夫决策过程（MDP），通过实验验证了 DPO 在令牌级 MDP 中的有效性。

TDPO：为解决 DPO 中 LLM 生成多样性降低和 KL 散度增长过快的问题，提出token级 DPO（TDPO），采用顺序前向 KL 散度并定义了相关函数和目标函数，实验表明 TDPO 在多个数据集上优于 DPO。

Iterative/Online DPO

Iterative/Online DPO: Self - Rewarding Language Models：利用 LLM 进行迭代 / 在线 DPO，通过自我指令创建和指令跟随训练来使 LLM 与生成的偏好数据集对齐，实验在多个任务上进行，结果显示迭代训练对 LLM 性能有一定影响，但也提出了关于确定迭代终止点的问题。

Iterative/Online DPO: CRINGE：基于二元反馈，提出对比迭代负生成（CRINGE）损失，将其扩展到偏好反馈并与迭代 / 在线过程结合，实验在多个数据集上进行，结果表明该方法能提高生成质量，优于其他方法。

Binary Feedback

KTO：受前景理论启发，提出 KTO 方法，通过修改效用函数推导损失函数，实验在多个模型上进行，评估了 KTO 在不同情况下的性能表现。

DRO：设计了直接奖励优化（DRO）方法，直接优化策略而无需学习单独的奖励模型，通过实验在多个数据集上进行，结果显示 DRO - V 在性能上优于 KTO。

Merge SFT and Alignment

ORPO：去除参考模型，将监督微调（SFT）和对齐集成到单个步骤中，通过定义相关函数推导损失函数，实验在多个模型上进行，结果显示 ORPO 在某些数据集上取得了一定成绩，但也存在一些局限性。

PAFT：提出 PAFT 方法，通过并行执行 SFT 和 DPO 并合并模型来解决灾难性遗忘问题，实验在多个模型上进行，结果表明 PAFT 模型在性能上优于其他方法。

Length Control DPO and Reference Free DPO

R - DPO：通过将输出长度纳入 RL 目标来解决 DPO 中输出冗长的问题，推导了新的奖励模型函数和损失函数，实验在多个数据集上进行，结果表明 R - DPO 能有效减少输出长度，但也存在一些其他问题。

SimPO：提出简单偏好优化（SimPO）方法，消除了对参考模型的需求，通过定义损失函数和采用长度归一化策略来实现，实验在多个模型上进行，结果显示 SimPO 在性能上优于 DPO 及其变体。

RLOO：提出使用 REINFORCE Leave - One - Out（RLOO）进行对齐，简化了 PPO 过程，实验在多个模型上进行，结果表明 RLOO 在性能和鲁棒性方面优于 PPO 和 DPO。

Listwise Preference Optimization

LiPO：受学习排名（LTR）方法启发，提出列表式偏好优化（LiPO），通过定义损失函数来优化列表式偏好数据集，实验在多个数据集上进行，结果显示不同损失函数的性能有所差异，并提出了一些关于方法改进和数据集处理的建议。

RRHF：提出排名响应以对齐人类反馈（RRHF）方法，通过采样、评分和排名多个响应来简化对齐过程，实验在多个模型上进行，结果表明 RRHF 模型在性能上与 RLHF/PPO 相当，但简化了对齐过程。

PRO：提出偏好排名优化（PRO）方法，使用列表式偏好数据集直接在 SFT 过程中实现对齐，通过定义损失函数并修改 SFT 损失来实现，实验在多个数据集上进行，结果显示 PRO 在某些方面优于 RLHF。

Negative Preference Optimization

Negating Negatives：旨在通过仅使用负面响应来优化 LLM，提出了相应的损失函数，实验在多个数据集上进行，结果表明该方法能提高帮助性、减少危害性并使学习曲线更平滑。

Negative Preference Optimization：引入负偏好优化（NPO）方法，通过调整损失函数来减少不期望响应的可能性，实验表明 NPO 在灾难性遗忘方面表现较好，能有效遗忘部分不期望的训练数据。

Contrastive Preference Optimization：为提高机器翻译性能，提出对比偏好优化（CPO）方法，通过使用多个模型生成和评估翻译来训练模型，实验表明 CPO 能使模型在机器翻译中达到与 GPT - 4 相当的性能。

Nash Learning

Nash Learning from Human Feedback：提出使用纳什均衡来推导偏好模型，以解决传统点式奖励方法在 RLHF 中的问题，引入 Nash - MD 算法，实验在多个数据集上进行，结果表明该方法在某些任务上优于 RLHF，但收敛速度较慢。

SPPO：将 RLHF 重新解释为两人零和游戏，提出自玩偏好学习（SPPO）方法，通过迭代 / 在线策略更新来优化策略，实验在多个数据集上进行，结果显示 SPPO 在性能上优于其他方法，但速度可能较慢。

DNO：提出直接纳什优化（DNO）方法，采用批量在线策略算法进行单时间尺度更新，实验在多个数据集上进行，结果表明 DNO 训练的模型在性能上有显著提高。

方法对比

对包括 DPO、KTO、IPO 和 CPO 在内的隐式奖励模型方法进行了全面评估，发现 KTO 在大多数基准测试中表现出色，对齐在不同任务中的效果不同，数据量对对齐方法的性能有重要影响，KTO 和 CPO 可直接进入对齐阶段而不影响性能，而 DPO 和 IPO 则不然。
研究表明 DPO 可能存在局限性，如产生有偏差的解决方案和因分布偏移而性能下降，迭代 / 在线 DPO 可缓解此问题，但 RLHF/PPO 通过特定技术能更好地应对这些挑战，最终结果表明 PPO 优于迭代 / 在线 DPO，而迭代 / 在线 DPO 又优于标准 DPO。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述