PPO & DPO

最新推荐文章于 2025-03-12 08:00:00 发布

Alex_Y_Y

最新推荐文章于 2025-03-12 08:00:00 发布

阅读量933

点赞数 3

文章标签：人工智能

本文链接：https://blog.csdn.net/Alex_Y_Y/article/details/141842664

版权

1. RLHF中，PPO需要哪几个模型，分别是什么作用？

一般来说，PPO需要使用4个模型。

1.Actor模型：由SFT初始化，就是进行强化学习的主模型，是我们想要最终获得的模型；它不断产生action并被Critic模型所评价，计算loss进行训练。

2.Reference模型：一般也是从SFT模型初始化，RLHF中Reference模型并不更新参数，只是作为Actor模型的参考使用；通过约束Actor模型和Reference模型的KL penalty等，可以防止Actor模型被训得跑得太偏。

3.Reward模型：提前训练好的，对SFT模型进行打分的模型，RLHF中参数是冻结的。

4.Critic模型：一般由Reward模型进行初始化，参数可训练，用于预测Actor模型生成的token的收益。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Alex_Y_Y

关注关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【人工智能大模型】一文彻底讲透——什么是 PPO（Proximal Policy Optimization，近端策略优化）？

AI天才研究院

04-03

2万+

提出了一系列用于强化学习的新策略梯度方法，它们通过与环境的交互在采样数据和使用随机梯度上升优化“代理”目标函数之间交替。鉴于标准策略梯度方法对每个数据样本执行一次梯度更新，我们提出了一种新的目标函数，可以实现多个时期的小批量更新。我们称之为近端策略优化 (PPO) 的新方法具有信赖域策略优化 (TRPO) 的一些优点，但它们实施起来更简单、更通用，并且具有更好的样本复杂性（根据经验）。

请详述ppo和dpo的区别和优劣|详解ppo原理|

强化学习曾小健

07-10

6027

PPO 是一种高效且稳定的策略优化算法，通过引入裁剪机制限制策略更新幅度，从而在保证策略更新稳定性的同时，有效地进行策略优化。其简单易实现的特点使其成为强化学习中的一种常用算法，并在多种应用场景中表现出色。PPO 的成功表明，在强化学习中，稳定和高效的策略更新是实现高性能的重要因素。策略梯度目标函数 𝐽(𝜃)J(θ) 表示策略 𝜋𝜃πθ 下的期望累积回报。通过最大化这个目标函数，我们可以优化策略，使其在环境中获得更高的累积奖励。策略梯度方法直接优化策略的参数，通过计算目标函数的梯度。

参与评论您还未登录，请先登录后发表或查看评论

一文搞懂大模型强化学习策略：DPO、PPO和GRPO

2401_85373691的博客

03-12

1993

大模型很多技术干货，都可以共享给你们，如果你肯花时间沉下心去学习，它们一定能帮到你！

大语言模型-RLHF(四)-PPO（Proximal Policy Optimization）原理&实现&代码逐行注释

qjzcy的博客

08-01

1832

要搞明白PPO首先需要搞明白下面几个概念。策略梯度（Policy Gradient），On Policy Off Policy，重要性采样（Importance Sampling），自适应的KL散度惩罚（Adaptive KL Penalty Coefficient），约束问题（Clipped Surrogate Objective）

【深度强化学习】(6) PPO 模型解析，附Pytorch完整代码

博观而约取，厚积而薄发

03-13

5万+

近端策略优化算法PPO（proximal policy optimization），具备 Policy Gradient、TRPO 的部分优点，采样数据和使用随机梯度上升方法优化代替目标函数之间交替进行，但 PPO 提出新目标函数，可以实现小批量更新。PPO 算法可依据 Actor 网络的更新方式细化为含有自适应 KL-散度（KL Penalty）的 PPO-Penalty 和含有 Clippped Surrogate Objective 函数的 PPO-Clip。

【强化学习】PPO(Proximal Policy Optimization)近端策略优化算法

最新发布

04-03

### PPO 和 DPO 算法对比 #### 近端策略优化（Proximal Policy Optimization, PPO）近端策略优化（PPO）是一种基于策略梯度的强化学习方法，旨在通过减少更新过程中策略的变化幅度来提升训练稳定性。该算法可以...

PPO和DPO在大模型训练的区别和优劣是什么。

强化学习曾小健

12-25

731

DPO 是一种直接优化人类偏好的新方法，提出目的是简化 RLHF 中的训练流程，避免强化学习算法（如 PPO）带来的复杂性，同时有效训练大规模语言模型以更好地满足人类偏好。在大模型训练（如 RLHF，Reinforcement Learning with Human Feedback）中，PPO 被用来对语言模型。两者在设计目标、优化方式以及适用场景上有显著区别，以下是它们的核心概念、在大模型训练中的应用，以及各自的优劣势。在强化学习（RL）和大模型训练（尤其是大规模语言模型，如 ChatGPT）中，

大语言模型原理与工程实践：PPO 算法

AI天才研究院

05-23

524

大语言模型原理与工程实践：PPO 算法作者：禅与计算机程序设计艺术 1. 背景介绍 1.1 大语言模型的崛起近年来，随着深度学习技术的飞速发展，大语言模型（Large Language Model, LLM）凭借其

人人都能看懂的PPO原理与源码解读

zenRRan的博客

02-09

2572

来自：大猿搬砖简记大家好，最近我又读了读RLHF的相关paper和一些开源实践，有了一些心得体会，整理成这篇文章。过去在RLHF的初学阶段，有一个问题最直接地困惑着我：如何在NLP语境下理解强化学习的框架？例如，我知道强化学习中有Agent、Environment、Reward、State等要素，但是在NLP语境中，它们指什么？语言模型又是如何根据奖励做更新的？为了解答这个问题，我翻阅了很多资料，...

强化学习--PPO（近端策略优化）

qq_44430026的博客

07-24

2441

磨菇书策略梯度 PPO

【RL】(task5)PPO算法和代码实现

发现问题，并解决问题，批判性思维

01-30

1276

分为三个步骤 step1 我做你看：有监督学习，从训练集中挑出一批prompt，人工对prompt写答案。其实就是构造sft数据集进行微调。 step2 你做我看：奖励模型训练，这次不人工写答案了，而是让GPT或其他大模型给出几个候选答案，人工对其质量排序，Reward model学习一个打分器；这个让机器学习人类偏好的过程就是【对齐】，但可能会导致胡说八道，可以通过KL Divergence等方法解决。 instructGPT中奖励模型的损失函数如下，其中 rθ(x,y) 是奖励模型对提示x和完成y的标量

强化学习的优化策略PPO和DPO详解并分析异同

samoyan的博客,记录技术成长~

12-29

2万+

总结来说，PPO和DPO在算法框架和目标函数上有共同之处，但在实现方式、并行化程度以及适用的计算环境上存在差异，DPO特别适用于需要大规模并行处理的场景。总结来说，PPO专注于通过剪切概率比率来稳定策略更新，而DPO在此基础上引入分布式计算，以提高数据收集和处理的效率，加快学习速度。

DPO&PPO

m0_73202283的博客

02-08

376

DPO（Direct Preference Optimization）通过利用奖励函数与最优策略之间的映射关系，证明这个受限的奖励最大化问题可以通过单阶段的策略训练来精确优化，本质上是在人类偏好数据上解决一个分类问题。Reference Model：参考模型，它的作用是在RLHF阶段给语言模型增加一些“约束”，防止语言模型训歪（朝不受控制的方向更新，效果可能越来越差）由于DPO的优化目标是最大化对比学习中的偏好数据的对数似然，因此在优化过程中，Reward Model：奖励模型，它的作用是计算即时收益。

RLHF PPO直观解释

smartcat2010的博客

08-18

146

每生成1个Token：自己这个Token就是Action，用Reward模型、Actor和Reference模型计算得到该步Reward，用Critic模型计算得到预估价值V；