GPT3.5的PPO目标函数怎么来的：From PPO to PPO-ptx

Stevezhangz

已于 2024-06-17 22:06:35 修改

阅读量875

点赞数 23

文章标签： gpt-3

于 2024-06-17 19:49:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/captainAAAjohn/article/details/139752725

版权

给定当前优化的大模型 $\pi$ ，以及SFT模型 $\pi_{SFT}$

原始优化目标为: $\max E_{(s,a)\sim RL}[\frac{\pi(s,a)}{\pi_{SFT}(s,a)}A^{\pi_{SFT}}(s,a)]$

假设型 $\pi$ ，以及SFT模型 $\pi_{SFT}$ 的KL散度很小即 $\frac{\pi(s,a)}{\pi_{SFT}(s,a)}=1$

给定奖励模型 $r(s,a)\in [0,1]$ ,

假设整个事件的时间范围就1步所以 $Q (s, a) = R (s, a) = r (s, a)$

可以得到:

$\max E_{(s,a)\sim RL}[\frac{\pi(s,a)}{\pi_{SFT}(a|s)}A^{\pi_{SFT}}(a|s)] \\=\max E_{(s,a)\sim RL}[\frac{\pi(a|s)}{\pi_{SFT}(a|s)}(Q^{\pi_{SFT}}(s,a)-V^{\pi_{SFT}}(s))]\\=\max E_{(s,a)\sim RL}[\frac{\pi(a|s)}{\pi_{SFT}(a|s)}(r(s,a)-V^{\pi_{SFT}}(s))]\\=\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)} V^{\pi_{SFT}}(s)]\\=\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)}\int_{a} Q^{\pi_{SFT}}(s,a)]\\=\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)}\int_{a} r(s,a)]\\=\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)}]$
此外为了约束模型 $\pi$ 和 $\pi_{SFT}$ 之间不要差得太远还需要使用SFT的数据训练 $\pi$ ，等价于 $\max E_{(s,a)\sim \pi_{SFT}}[\pi(a|s)]$ 。因此优化目标就变成了:
$\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)}]+E_{(s,a)\sim \pi_{SFT}}[\pi(a|s)]$
这一项和GPT3.5的优化目标基本一致:
在这里插入图片描述

关注

23
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
GPT3.5的PPO目标函数怎么来的：From PPO to PPO-ptx

之间不要差得太远还需要使用SFT的数据训练。假设整个事件的时间范围就1步所以。给定当前优化的大模型。
复制链接

扫一扫

Stevezhangz CSDN认证博客专家 CSDN认证企业博客

码龄5年

15: 原创

10万+: 周排名

6万+: 总排名

7万+: 访问

: 等级

463: 积分

36: 粉丝

76: 获赞

24: 评论

124: 收藏

私信

关注

热门文章

分类专栏

最新评论

【解决|ubuntu】d4rl 安装踩坑记录
m0_60789828: 大佬求救我是在实验室的服务器上安装的，所以没有sudo权限，然后在import mujoco_py时显示fatal error: GL/glew.h: No such file or directory 该怎么办，因为没有sudo权限，所以不能直接apt install，
【解决|ubuntu】d4rl 安装踩坑记录
吴吴吴三群: 这个库必须在Linux下使用吗，在win下能不能用
[彻底解决]CUDA error: an illegal memory access was encountered(CUDA错误非法访问内存)
Stevezhangz: 看你新生成的东西占用多少显存
[彻底解决]CUDA error: an illegal memory access was encountered(CUDA错误非法访问内存)
m0_70887311: 我换模型就会出现这种问题,然后在别人大显存电脑上还是同样问题,大概率是我的模型有问题
【解决|ubuntu】d4rl 安装踩坑记录
Stevezhangz: conda activate 某个环境后，pip所安装的内容都是在这个环境之下的，下次使用这些包需要再一次conda activate 这个环境。这些东西都是python基础，只要一直debug，到最后都能搞明白

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。