万字解读 LLMs+RL 综述！| open AI 引领LLMs结合强化学习新范式，开源代码还不赶快学起来？

最新推荐文章于 2025-04-07 10:43:29 发布

Python_金钱豹

最新推荐文章于 2025-04-07 10:43:29 发布

阅读量2.3k

点赞数 31

文章标签：人工智能 prompt 自动化运维大数据

本文链接：https://blog.csdn.net/Python_cocola/article/details/144834677

版权

【论文标题】

Reinforcement Learning Enhanced LLMs: A Survey

【论文链接】https://arxiv.org/pdf/2412.10400v2

摘要

本文调查了利用强化学习（RL）增强大型语言模型（LLMs）这一快速发展领域的研究情况。强化学习是一种技术，可使 LLMs 根据其输出质量接收奖励形式的反馈，从而提高其性能，使其能够生成更准确、更连贯、更符合语境的响应。

这项工作对有关 RL 增强 LLMs 的最新知识进行了系统回顾，试图整合和分析该领域快速增长的研究，帮助研究人员了解当前的挑战和进展。

（1）详细介绍了 RL 的基础知识。

（2）介绍了通过 RL 增强的主流 LLMs。

（3）回顾了两种广泛使用的基于奖励模型的 RL 技术的研究：基于人类反馈的强化学习（RLHF）和基于人工智能反馈的强化学习（RLAIF）。

（4）探索直接偏好优化（DPO），这是一套绕过奖励模型直接使用人类偏好数据的方法，用于使 LLMs 输出与人类期望相一致。

本文还将指出现有方法目前面临的挑战和不足，并提出一些进一步改进的途径。

文章架构图

通过强化学习增强的主流大语言模型

1. InstructGPT

模型概述：OpenAI 开发的系列语言模型，基于 GPT-3 微调，有 1.3B、6B、175B 参数三种规模。

RL 应用：先通过监督学习微调，再用 RLHF 进一步优化。训练 6B 奖励模型，用比较数据排名训练，RL 阶段用 PPO 算法优化奖励输出。

模型优势：输出更符合人类意图，在真实性和减少毒性输出方面有改进，在公共 NLP 数据集上性能损失小。

2. GPT-4

模型概述：OpenAI 开发的大型多模态模型，能处理图像和文本输入，生成文本输出，在复杂场景下理解和生成自然语言能力强。

RL 应用：采用 RLHF 方法，在训练中使用Zero-shot GPT-4 分类器作为规则奖励模型（RBRM），优化模型对有害内容的拒绝和对安全提示的响应。

模型优势：在多项人类设计考试中表现优异，超越早期模型和多数现有系统。

3. Gemini

模型概述：Google 开发的多模态模型家族，包括 Ultra、Pro、Nano 三种版本，Gemini Ultra 在多个基准测试中表现卓越。

RL 应用：采用优化反馈循环的后训练过程，利用 RLHF 方法，通过迭代方式逐步增强奖励模型，并持续优化评估和数据收集。

模型优势：在 30/32 个基准测试中取得领先成绩，是首个在 MMLU 上达到人类专家水平的模型，在多模态基准测试中创纪录。

4. InternLM2

模型概述：上海 AI Lab 开发的开源大语言模型系列，有 1.8B、7B、20B 三种规模，在多维度和基准测试中表现出色。

RL 应用：采用条件在线 RLHF（COOL RLHF）策略，引入条件奖励机制和多轮在线 RLHF 策略，解决偏好冲突和奖励黑客问题。

模型优势：在长上下文建模和开放式主观评估等方面表现优异，创新的预训练和优化技术提升了性能。

5. Claude 3

模型概述：Anthropic 开发的大型多模态模型家族，包括 Opus、Sonnet、Haiku 三个版本，在基准测试中性能强大。

RL 应用：在 RL 阶段使用宪法人工智能（Constitutional AI）技术，通过 RLAIF 方法，将 AI 反馈提炼为偏好模型，用于微调监督学习模型。

模型优势：在推理、数学和编码等方面表现出色，Claude 3 Opus 在多个评估中达到领先水平。

6. Zephyr 141B-A39B

模型概述：基于 Mixtral - 8x22Bv0.1 微调的语言模型，是混合专家（MoE）模型，总参数 1410 亿，活跃参数 390 亿。

RL 应用：采用优势比偏好优化（ORPO）算法，无需 SFT 预热、奖励模型或参考模型，通过添加惩罚项区分响应风格。

模型优势：资源高效，能有效区分偏好和非偏好响应风格。

7. DeepSeek-V2

模型概述：DeepSeek-AI 开发的 MoE 语言模型，有 2360 亿总参数，210 亿激活参数，支持长上下文，预训练数据质量高。

RL 应用：RL 阶段使用组相对策略优化（GRPO）方法，减少训练成本，采用两阶段 RL 训练策略，分别关注推理对齐和人类偏好对齐。

模型优势：在开源模型中保持高性能，创新架构支持高效训练和推理。

8. ChatGLM

模型概述：Zhipu AI 开发的大语言模型系列，最新版本 GLM-4 在多数据集上预训练，包括多种变体。

RL 应用：采用 ChatGLM-RLHF 管道，包括收集人类偏好数据、训练奖励模型和优化策略模型，采用多种技术确保训练稳定性和有效性。

模型优势：在一般基准测试中与 GPT-4 竞争，在中文特定对齐方面表现优异。

9. Nemotron-4 340B

模型概述：NVIDIA 发布的模型家族，包括 Base、Instruct、Reward 三个版本，Base 模型在大规模数据上训练。

RL 应用：偏好微调阶段采用 DPO 和奖励感知偏好优化（RPO）算法，RPO 解决 DPO 中质量差异考虑不足的问题。

模型优势：在多个评估基准上与开放访问模型竞争，通过迭代优化提升模型性能。

10. Llama 3

模型概述：Meta 开发的开源基础语言模型系列，有 80 亿、700 亿、4050 亿参数三种规模，训练数据量大且多语言。

RL 应用：后训练过程通过六轮迭代细化，每轮包括监督微调（SFT）和 DPO，训练奖励模型并优化 SFT 模型，调整 DPO 训练以增强稳定性。

模型优势：在多种任务中性能与 GPT-4 可比，广泛的实证评估证明其有效性。

11. Qwen2

模型概述：Alibaba 开发的大语言模型系列，参数规模多样，包括密集配置和 MoE 变体，预训练数据大规模且高质量。

RL 应用：偏好微调过程包括离线和在线学习，离线用 DPO 优化，在线通过奖励模型选择偏好对实时改进，采用在线合并优化器降低对齐成本。

模型优势：在多个基准测试中表现出色，超越多数先前开放权重模型。

12. Gemma 2

模型概述：Google 开发的最新轻量级开源模型系列，参数规模 20 亿 - 270 亿，对 Transformer 架构有改进。

RL 应用：后训练 RLHF 阶段，用大容量模型自动调整超参数和减轻奖励黑客问题，奖励模型专注于对话能力，规模比策略模型大一个数量级。

模型优势：在模型规模上性能优异，可作为较大模型的替代选择。

13. Starling-7B

模型概述：UC Berkeley 开发的 70 亿参数聊天模型，专注于与人类偏好对齐，基于 Openchat-3.5 微调。

RL 应用：使用 RLAIF 方法在高质量偏好数据集 Nectar 上微调，改进 PPO 算法，包括长度控制奖励、预训练评论家模型和全参数调整。

模型优势：在多个评估指标上得分提高，如 MT-Bench、AlpacaEval 和 Chatbot Arena。

14. o1

模型概述：OpenAI 开发的新模型，优化用于复杂推理，训练中使用 RL，内部思维过程复杂。

RL 应用：采用大规模 RL 算法，通过详细的思维链（CoT）进行高效训练，强调生产性思维，训练中不应用策略合规或用户偏好训练。

模型优势：在多个挑战性任务中超越 GPT - 4o，如编程、数学和科学基准测试，性能随训练计算和测试时间计算增加而提升。

15. 其他模型

Reka Core、Flash 和 Edge：Reka 开发的多模态语言模型，从无到有训练，在不同规模上表现出色，后训练采用 RLHF 方法增强对齐。

Phi-3：Microsoft 的语言模型系列，最小模型 phi-3-mini 虽参数少但性能可比较大模型，后训练用 DPO 引导模型远离不良行为。

Athene-70B：Nexusflow 开发的强大聊天模型，通过针对性后训练方法显著提升性能，接近领先专有模型。

Hermes 3：Nous Research 开发的模型系列，具有先进推理和创造能力，通过 DPO 和 LoRA 适配器训练，在多个基准测试中表现优异。

基于人类反馈的强化学习（RLHF）

1 概述

RLHF 是将强化学习与人类反馈相结合的训练方法，旨在使 LLMs 的输出与人类的价值观、偏好和期望保持一致。该方法主要由两个部分组成：

一是收集人类反馈以训练奖励模型。

二是利用人类反馈进行偏好优化。

2 收集人类反馈训练奖励模型

Skywork-Reward 数据集：通过有效数据选择和过滤策略，从包含 37.8 万对偏好数据的原始数据集中精心提炼出 8 万对高质量偏好对。该数据集涵盖多种任务，如指令跟随、代码生成和多语言处理，为模型理解人类偏好提供了坚实基础，有助于 LLMs 在实际应用中生成更准确、有用的输出。

TÜLU-V2-mix 数据集：旨在增强 LLMs 的指令跟随能力，提供了丰富多样的数据，涵盖问答、代码生成、翻译和多轮对话等任务，尤其强调多语言适应性和处理复杂现实场景的能力。它与 Skywork - Reward 数据集互补，共同推动语言模型在不同方面的能力提升。

3 使用人类反馈进行偏好优化

奖励步骤：LLMs 针对给定指令生成多个输出，然后将这些输出传递给训练好的奖励模型，该模型会为每个输出分配一个近似人类偏好的标量分数。

策略优化步骤：使用近端策略优化（PPO）或信任区域策略优化（TRPO）算法，通过调整 LLMs 的参数来最大化预测奖励，从而优化模型的行为，使其更符合人类偏好。

迭代优化过程：上述两个步骤可以反复进行，形成一个迭代循环。在每次迭代中，LLM 根据奖励模型的反馈不断改进其输出，从而逐步提升性能，更好地与人类偏好对齐。随着迭代的进行，模型能够持续适应和优化自身的响应，最终生成更有效、更符合人类期望的输出。

基于人工智能反馈的强化学习（RLAIF）

1 概述

RLAIF 是一种利用人工智能系统（通常是更强大或更专业的 LLMs）为训练中的 LLM 提供反馈的方法，是 RLHF 的一种有前景的替代或补充方案，具有可扩展性、一致性和成本效益等优势。

2 从 AI 反馈中训练奖励模型

UltraFeedback 数据集：包含超过 100 万条高质量的 GPT - 4 反馈注释，涵盖 25 万次用户 - 助手交互，专注于指令遵循、准确性、诚实性和有用性等关键维度。通过收集多样化指令、使用多种模型生成响应，并利用 GPT - 4 进行详细评估和评分，为提高 LLMs 性能和对齐性提供了丰富的数据支持。

Magpie 方法：一种自我合成方法，利用对齐 LLMs 的自回归特性，通过预定义模板生成用户查询和响应，无需手动干预。该方法能合成大量指令 - 响应对，经筛选后可用于微调模型，使微调后的模型在对齐基准测试中表现出色，性能与经过监督微调和 RLHF 训练的官方模型相当。

HelpSteer2 数据集：一个高效的开源偏好数据集，包含约 1 万条比较样本，用于训练高性能奖励模型。数据集使用多种模型生成的响应，具有多维度注释，通过严格的数据清理和优化，以紧凑格式提供高质量注释，有助于提高奖励模型的性能。

OffsetBias 数据集：旨在减轻奖励模型中的偏差，使用多种模型生成的响应，系统地处理六种类型的偏差，如内容、风格、信息性、安全性、创造性和长度。通过属性控制提示和多模型输出生成比较样本，并进行多维度评分和标注，为提高奖励模型的公平性和可靠性提供了有力支持。

2 将 LLMs 用作奖励函数

ELLM Rewards 方法：将 LLMs 与强化学习集成，在预训练阶段通过将代理的当前状态转换为自然语言描述并输入 LLM，使 LLM 生成探索目标，从而提高探索效率。该方法在稀疏奖励环境中尤为有用，能引导代理探索有价值的状态空间，为后续任务提供更好的初始化，同时涵盖更多常识行为。

大语言模型设计奖励 (RDLM) 方法：允许用户通过自然语言描述定义期望行为，LLM 根据这些描述生成奖励信号，用于强化学习中的策略优化。这种方法简化了复杂任务中奖励函数的设计，使用户能够更灵活地定义奖励逻辑，使 LLM 生成的奖励更符合任务特定需求，有效引导代理行为。

Eureka 算法：利用 LLMs 自动生成和优化强化学习任务中的奖励函数代码。通过编码 LLM 根据任务描述生成初始奖励函数代码，然后使用进化策略迭代改进，根据代码引导 RL 代理完成任务的效果评估和优化奖励函数。该算法在复杂或特定奖励定义的任务中表现出色，如高级机器人技能学习，显著提高了任务成功率。

Text2Reward 框架：从自然语言任务描述中自动生成密集且可解释的奖励函数代码，用于强化学习中的高效奖励塑造。用户提供任务描述后，LLM 生成可执行的奖励代码，该代码可集成外部库以实现复杂功能，并支持通过人类反馈进行迭代优化。该框架在机器人和操作任务等领域表现出色，能提供灵活、可解释的奖励，有效引导代理行为。

3 自奖励机制

Self-Refined LLM 方法：LLMs 自动生成奖励函数，并通过引入自我优化机制，根据 RL 训练中的反馈动态调整和改进奖励函数。实验表明，该方法在多个基准测试中表现优于多个先进模型，有效提高了指令跟随和一般任务性能，展示了其在提升 LLMs 性能方面的潜力。

Self-Rewarding Language Models (SRLM) 方法：LLMs 既作为生成器又作为评估器，通过生成新提示和候选响应，使用结构化评分机制评估响应质量，构建偏好对用于直接偏好优化（DPO），从而迭代改进模型。该方法在提高指令跟随性能的同时，也增强了模型的奖励建模能力，使其能够更好地与任务目标对齐，在实验中取得了较好的效果。

RLHF/RLAIF面临挑战

分布外（OOD）

当奖励模型和 LLM 独立训练时，可能出现知识和决策框架不一致的情况，导致奖励模型在遇到陌生场景或新的数据分布时无法有效泛化，表现出过度自信，产生与实际人类偏好不一致的高奖励输出。

解决策略

不确定性量化：引入不确定性量化，使奖励模型能够区分 “已知” 和 “未知” 区域，从而做出更谨慎、稳健的决策，避免过度依赖训练数据分布。

对比学习与正则化：结合对比学习和正则化技术，增强奖励模型处理 OOD 场景的能力，确保其在不同输入下的可靠性。

可泛化奖励模型：提出如 Generalizable Reward Model（GRM）等方法，通过正则化隐藏状态和引入文本生成损失，使奖励模型更适应多样化输入，提高其泛化能力。

人类可解释性

奖励模型通常以离散分数评估 LLM 输出，但分数背后的原理不透明，难以理解其决策过程，这在对人类偏好敏感的应用中尤为重要，因为缺乏可解释性可能导致对模型对齐过程的不信任。

解决策略

ArmoRM 模型：采用混合专家方法，将评估维度分离，通过专用子模型评估输入数据的不同方面，如诚实性、安全性等，然后由门控网络动态加权生成最终奖励分数，提高了分数与输入特征的关联性，增强了可解释性和透明度。

Quantile Reward Models (QRM)：利用分位数回归估计奖励分布，而不是单一的点估计，能够更丰富地表示人类反馈，有效处理噪声标签和冲突偏好，通过建模奖励分布中的不确定性，为决策提供更多信息，例如在风险规避或探索任务中可根据分位数做出更合适的决策。

General Preference Representation Model (GPM)：将人类偏好嵌入潜在空间，以结构化和透明的方式建模复杂关系，避免了传统点基评分系统的局限性。通过在连续空间中映射偏好，每个维度代表特定属性，能够清晰解释偏好原因，并能动态适应不同上下文，更好地反映人类反馈的复杂性。

安全性

接影响 LLMs 输出的伦理和安全标准，因此需要确保奖励模型能够正确引导 LLMs 避免生成有害内容。

解决策略

Safe RLHF 方法：通过结构化方法平衡帮助性和无害性，将人类偏好注释分解为奖励模型（用于帮助性）和成本模型（用于无害性），并使用拉格朗日方法在强化学习阶段平衡两者，根据反馈动态调整参数和乘数，确保模型在追求帮助性的同时遵循安全约束。

Quantized Reward Konditioning (Quark) 框架：通过评估生成样本并标记低分位数样本为不良倾向，使模型在强化学习过程中逐渐 “遗忘” 有害、重复或负面情感等不良特质，同时增强高奖励目标，从而使生成的文本更符合期望，有效解决有害内容问题。

Constitutional AI 方法：通过定义原则（“宪法”）来指导 AI 行为，包括监督学习和强化学习两个阶段。在监督学习阶段，模型根据原则自我评估和改进输出；在强化学习阶段，偏好模型根据宪法原则评估生成的响应，作为奖励信号进一步优化模型，确保模型行为符合安全和期望目标，同时提高透明度。

BeaverTails 数据集：是一个大规模、高质量的问答数据集，通过分离 “帮助性” 和 “无害性” 注释，为研究 LLM 安全和对齐提供了丰富资源，涵盖多种实际场景，有助于研究者更有效地改进 LLM 行为，提高其在不同情况下的安全性和实用性。

Rule-Based Rewards (RBR) 方法：依赖明确、详细的规则而非一般指南，通过将规则转化为简单二进制命题，由 Grader LLM 评估响应是否符合规则并分配概率，然后与现有奖励模型结合形成总奖励，用于强化学习训练。该方法能使 LLM 更安全、更有帮助，且能根据规则动态调整，提供更精确和适应性强的控制，有效平衡安全与有用性。

奖励模型评估

RewardBench 基准：是一个全面的基准，用于评估奖励模型，解决了缺乏针对性和标准化评估方法的问题。它涵盖多个领域，引入了新的数据集结构，能够精确评估奖励模型与人类偏好的对齐能力，包括处理分布外查询和细粒度差异的能力。同时，提出了系统的评估指标，如拒绝倾向，通过对各种奖励模型的实证研究，揭示了模型在拒绝低质量内容、处理推理任务和指令遵循等方面的性能和局限性。

Prometheus 2 模型：是一个开源评估模型，旨在解决评估语言模型时面临的透明度低、依赖专有系统和成本高的问题。它通过合并直接评估和成对排名模型的权重，基于高质量数据集进行训练，能够处理多种任务中的细微差异，提供准确、一致和可解释的评估。其创新的双任务框架确保了模型能够适应不同评估需求，同时通过对齐技术模仿人类偏好，为研究社区提供了可靠且可访问的评估工具，促进了语言模型评估的发展。

直接偏好优化（DPO）

DPO 是一种旨在简化和加速 LLMs 与人类偏好对齐过程的技术，通过直接使用人类偏好数据来优化模型，避免了传统 RLHF 方法中复杂的奖励模型训练和迭代过程，为 LLMs 的优化提供了一种更直接、高效的途径。

1. SLiC - hf 方法

原理：利用序列似然校准，通过对比人类偏好和非偏好序列，优化 LLMs。具体采用排名校准损失，使模型为偏好序列分配更高的可能性。

实现方式：包括 SLiC - HF - direct 和 SLiC - HF - sample - rank 两种方法。前者直接使用原始人类反馈数据校准序列可能性，但可能受数据分布影响；后者通过生成多个候选序列并选择最佳序列，使用排名或奖励模型进行评估，提高了数据利用效率和模型性能。

2. DPO 方法

原理：通过重新参数化方法，直接根据人类偏好数据优化模型，避免了传统 RLHF 中迭代采样的复杂性。利用 Bradley - Terry 模型，以闭形式表达式直接表示最优策略，通过比较偏好和非偏好响应的可能性，使用二进制交叉熵损失作为优化指标，稳定地使模型输出与人类偏好对齐。

3. β - DPO 方法

原理：针对 DPO 中 β 参数的静态性问题，引入动态校准机制。根据批次数据质量评估，特别是成对数据的平均奖励差异，动态调整 β 参数。

实现方式：对于奖励差异小的批次降低 β 以进行更积极的更新，差异大的批次则增加 β 以避免过拟合。同时，采用过滤机制选择每个批次中最具信息性的样本，进一步优化模型训练过程。

4. sDPO 方法

原理：通过将偏好数据集分区并逐步输入训练过程，解决了传统 DPO 使用整个数据集一次性对齐模型的问题。

实现方式：从 SFT 基础模型开始，每次使用一部分数据对齐目标模型，并以前一步对齐的模型作为下一次的参考，形成渐进式优化路径。同时，提出了易于困难的分区策略，根据模型在数据上的表现分配数据，增强了模型的稳定性和对齐效果。

5. RSO 方法

原理：通过构建奖励 - 排名模型，基于人类偏好数据集对输出质量进行成对比较，引导统计拒绝采样过程，使系统生成接近最优目标政策的响应对。

实现方式：从 SFT 政策中采样候选对，根据奖励 - 排名模型的匹配程度接受或拒绝样本，通过迭代计算接受标准优化采样分布。然后使用定制损失函数（如铰链或 sigmoid-norm）将模型拟合到偏好标记的对上，确保模型与人类偏好对齐，无需显式强化学习结构。

6. GPO 方法

原理：通过使用一族凸函数参数化损失函数，创建了一个广义的离线偏好优化框架，将 DPO 和 SLiC 等方法视为该框架的特定实例，根据凸函数选择实现不同的偏好优化策略。

实现方式：提供泰勒展开来近似和分析损失函数，揭示了 GPO 损失如何动态平衡偏好优化和正则化，根据凸函数性质调整学习策略。例如，选择快速衰减尾的函数可加强正则化，使学习政策更接近参考模型；而较慢衰减函数则增加模型表达能力，但可能需要更仔细调整正则化系数。

7. DRO 方法

原理：旨在通过使用单轨迹数据和构建单一二次目标函数来改进 LLM 对齐，避免了传统偏好数据的高成本和复杂性。

实现方式：目标函数通过 KL 散度项引导政策优化，保持与参考政策的一致性，并结合每个单轨迹的奖励信号。采用迭代过程，同时更新政策和价值函数参数以最小化经验损失，并使用正则化参数平衡政策更新与参考模型的稳定性。

DPO分析

DPO 的安全性

D²O 方法

原理：通过在负样本（如有害或伦理问题输出）上进行训练，优化分布级 Bradley - Terry 偏好模型，使模型减少有害性输出，同时避免因过度关注负样本而导致的灾难性遗忘问题。

效果：在减少负面内容的同时，增强了模型探索多样化响应的能力，提高了模型的稳健性和响应质量，且在性能上优于实例级 DPO。

NPO 方法

原理：基于偏好优化原则，仅使用负样本改进语言模型的遗忘问题。通过最小化一个损失函数，选择性地降低模型对指定遗忘数据的置信度，该损失函数由 DPO 衍生而来，但专注于抑制特定输出。

效果：在实现过程中，NPO 损失自适应地加权每个梯度步骤，降低已遗忘样本的梯度贡献，防止模型过度发散或崩溃，有效实现了对不良输出的抑制。

DPO 的变体

DNO 方法

原理：采用批处理在线策略结构，基于纳什均衡概念进行迭代自我改进。在每次迭代中，模型学习回归目标，通过最大化在 “自我博弈” 轮次中优于竞争输出的响应可能性来优化自身，使用偏好函数对生成的响应对进行排名，保留高边际对以聚焦训练。

效果：为确保稳定性和计算效率，实施了过滤策略，仅选择具有高边际偏好的对进行训练，从而提高了模型的性能和收敛性。

SPPO 方法

原理：将语言模型优化重构为常和两人博弈，通过迭代更新识别纳什均衡策略。在每次策略更新中，采用乘法权重方法，根据观察到的偏好调整响应的概率分布，使具有更高偏好胜率的响应更受青睐。

效果：通过近似计算理想纳什均衡来优化响应概率权重，避免了传统方法中直接计算对数分区因子带来的方差问题，提高了模型在复杂偏好处理中的效率和准确性。

SPO 方法

原理：基于社会选择理论中的极小极大赢家概念，将 RLHF 简化为单代理自博弈机制。通过使用偏好函数比较两个轨迹并分配分数，该分数作为奖励信号驱动代理优化，利用偏好基零和博弈的对称性实现稳健收敛。

效果：在处理复杂偏好聚合任务时表现出色，能够有效地引导模型行为，使其在无需显式对抗或竞争训练的情况下，实现与人类偏好的良好对齐。

DPOP 方法

原理：针对 DPO 在处理低编辑距离偏好数据时可能降低首选响应可能性的问题，通过在标准 DPO 损失中添加纠正惩罚项来确保首选完成的对数似然不低于参考模型的可能性。

效果：修改后的 DPOP 损失函数结合了标准 DPO 项和正则化项，有效缓解了 DPO 在特定情况下的性能下降风险，提高了模型在处理类似数据时的稳定性和可靠性。

TDPO 方法

原理：将文本生成视为马尔可夫决策过程，在令牌级别进行优化，而不是传统的句子级别。通过引入令牌级 KL 散度约束，使用正向 KL 散度调节令牌级生成，同时保持多样性。

效果：扩展 Bradley - Terry 模型到令牌级别，利用后悔偏好模型计算令牌对的偏好概率，损失函数结合正向和反向 KL 散度项，实现了与人类偏好对齐和生成多样性之间的平衡，提高了模型在生成文本时的灵活性和质量。

DPO 的人类可解释性

ΨPO 方法

原理：通过最大化偏好概率的非线性函数来优化策略，同时通过 KL 散度正则化保持与参考策略的接近度。当设置特定函数时，可得到无需奖励模型且不依赖 Bradley - Terry 假设的 Identity - Preference Optimization（IPO）方法，通过简单有效的经验损失函数进行优化，避免过拟合。

效果：IPO 方法在学习偏好时能够有效避免过度拟合，确保策略优化朝着参考策略进行，提高了模型在处理偏好数据时的稳定性和准确性。

Unpacking DPO and PPO 研究

原理：对比分析 DPO 和 PPO 方法，发现 PPO 的在线特性使其在复杂领域（如推理和编码）中能够动态适应并显著提升性能，而 DPO 在计算效率上更具优势，但灵活性受限。

效果：研究表明偏好质量、奖励模型大小和训练算法选择对下游性能有显著影响，PPO 在多任务通用设置中通常表现优于 DPO，但 DPO 在特定简单任务中表现出色，为不同场景下选择合适的优化方法提供了参考。

从人类反馈中迭代学习偏好

原理：将 RLHF 公式化为反向 KL 正则化上下文赌博问题，旨在最大化人类反馈对齐，同时通过 KL 散度项确保学习策略不偏离预训练模型过多。在离线学习中，通过保守估计奖励应用悲观主义，保证样本效率；在线迭代学习中，基于批处理混合学习逐步纳入人类反馈，并通过基于不确定性的探索策略控制探索。

效果：理论分析表明，该方法在离线和在线设置中均具有有限样本理论保证，如迭代 DPO 结合悲观奖励估计和多步拒绝采样，在样本效率和对齐性能方面优于现有方法，同时揭示了探索与利用之间的权衡关系，证明了在线学习中的战略探索可增强模型对分布外数据的泛化能力。

对齐见解

原理：分析 DPO 面临的挑战，如过拟合和低效学习，指出 IPO 通过引入正则化项解决了这些问题，有效平衡了对齐与跨任务泛化。KTO 受前景理论启发，通过简化优化过程（将每个响应视为可取或不可取）降低计算复杂度，CPO 则通过去除训练中的参考模型减少内存消耗，同时通过组合最大似然和偏好损失保持对齐。

效果：这些方法在理论上通过权衡 RL - 基于反馈的复杂性，实现了更直接高效的对齐过程，但需要注意正则化和偏好采样，以避免模型偏差或泛化能力差，特别是在多样化任务领域中，为 DPO 的改进和应用提供了理论指导。

在 LLM 对齐方面，DPO 是否优于 PPO？

原理：理论分析表明，DPO 直接基于偏好对优化策略，避免了显式奖励模型，但易受分布外偏差影响，缺乏奖励函数的正则化作用可能导致策略分布偏差。PPO 通过学习奖励模型引入 KL 散度正则化项，约束模型政策更新，防止过度偏离参考政策，提高了泛化能力。

效果：研究证明 PPO 的解决方案是 DPO 的子集，但 DPO 在分布偏移时可能产生偏差解决方案。此外，PPO 通过优势归一化、大批次处理和指数移动平均更新参考模型等技术显著增强性能，特别是在复杂任务（如代码生成）中，为比较和选择 DPO 与 PPO 提供了理论依据。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述