DeepSeek基础：PPO、DPO、GRPO概念详解

大模型.

于 2025-03-25 09:31:21 发布

阅读量1.9k

点赞数 18

文章标签：人工智能 excel 大数据深度学习 transformer 大模型 deepseek

本文链接：https://blog.csdn.net/EnjoyEDU/article/details/146494231

版权

DeepSeek在强化学习（RL）优化中采用了多种算法，包括PPO、DPO和GRPO，这些算法在不同场景下提升了模型的性能和训练效率。以下是它们的核心特点和应用对比：

请添加图片描述

1、PPO（Proximal Policy Optimization，近端策略优化）

定义与原理
PPO是一种经典的策略优化算法，通过限制策略更新的幅度（通过裁剪概率比或KL散度约束）来确保训练的稳定性。其目标函数包含策略梯度项、裁剪机制和KL惩罚项，以防止策略偏离初始模型过远。
在LLM中的应用
在语言模型训练中，PPO需要同时训练策略模型（Actor）和价值模型（Critic），后者用于估计状态价值以计算优势函数。然而，PPO存在显存占用高、训练复杂度大等问题，尤其在长文本生成场景中，价值函数的估计可能不准确。
局限性
需要额外的价值函数模型，导致计算资源消耗大；在超大规模模型训练中容易出现数值不稳定和收敛速度慢的问题。

2、DPO（Direct Preference Optimization，直接偏好优化）

定义与原理
DPO是一种直接从偏好数据中优化策略的方法，无需显式的奖励模型。它通过对比正负样本的偏好差异，直接调整策略模型的输出概率分布。
应用场景与局限
适用于小规模或偏好数据明确的场景，但在复杂推理任务（如数学问题）中表现较差。例如，在MT-Bench基准测试中，DPO的得分（7.95）显著低于PPO（8.21）和GRPO（8.39）。其局限性在于难以处理多步推理的细粒度奖励信号。

3、GRPO（Group Relative Policy Optimization，群体相对策略优化）

核心创新
GRPO由DeepSeek团队提出，专为大规模RLHF设计。其核心改进包括：
摒弃价值函数：通过组内相对优势估计（以同一问题下多个采样输出的平均奖励为基线），减少显存占用40%以上。
动态梯度正则化：引入梯度监测器和自适应正则控制器，解决PPO的数值不稳定问题，训练崩溃率从PPO的17%降至2.3%。
过程监督与结果监督结合：对多步推理任务引入过程奖励（如数学推导步骤评分），提升模型推理能力。
实际效果
在AIME 2024测试中，使用GRPO训练的模型将pass@1得分从15.6%提升至71.0%。其优势还体现在训练效率上，达到相同奖励水平所需的步数比PPO减少35%。

算法对比与适用场景

算法	核心特点	适用场景	局限性
PPO	依赖价值函数，稳定性高但资源消耗大	通用RL任务，需精确价值估计的场景	显存占用高，大规模训练效率低
DPO	无需奖励模型，直接优化偏好数据	偏好数据明确的小规模任务	复杂推理任务表现差，奖励信号粒度不足
GRPO	群体相对优势估计，无Critic模型，效率高	超大规模模型、多步推理任务	需多阶段训练解决初期生成质量问题

总结

PPO是通用强化学习的基准算法，但在LLM场景中面临资源瓶颈；
DPO适用于偏好优化但难以处理复杂推理；
GRPO通过群体优化和动态正则化，成为DeepSeek实现高效训练的核心技术，尤其在高难度数学推理任务中表现突出。
未来方向：如清华AIR提出的DAPO算法，通过解耦裁剪和动态采样进一步优化GRPO，解决熵崩溃和训练不稳定问题，可能成为下一代改进方向。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】