【学习ChatGPT】 3. PPO

Citroooon

已于 2023-06-04 19:13:46 修改

阅读量118

点赞数

文章标签：学习 chatgpt 人工智能

于 2023-05-28 22:50:06 首次发布

本文链接：https://blog.csdn.net/Citroooon/article/details/130917852

版权

https://www.bilibili.com/video/BV1MW411w79n?p=2&vd_source=275b19d02ca629f220713e4de0936247

Policy Gradient - review

各种概念

三要素：
· actor
· environment - 不可控制
· reward - 不可控制

· policy $\pi$ is a network of param $\theta$ ,
input=state(可以理解为游戏的画面、现状），
output=可能的actor的概率分布

· episode = 一轮游戏，trajectory $\tau = s_1,a_1,s_2,a_2, ...,s_T, a_T$
· 一个episode的total reward: $\sum_{t=1}^T r_t$ , 一共T轮的reward总和； actor存在的意义就是maximize total reward
· expected reward: 穷举所有trajectory，算出total reward的均值

最大化total reward的推导过程

total reward R

$p_\theta(\tau) = p(s_1)p_\theta(a_1|s_1)p(s_2|s_1,a_1)p_\theta(a_1|s_2)p(s_3|s_2,a_2)...$
$=p(s_1)\prod_{t=1}^Tp_\theta(a_t|s_t)p(s_{t+1}|s_t,a_t)$

expected reward:
$R_\theta =\sum_\tau R(\tau)p_\theta(\tau) = E_{\tau -p_\theta(\tau)}[R(\tau)]$
从 $p_{\theta}(\tau)$ 这个概率分布中采样一个 $\tau$ 的reward就是reward的期望值

在这里插入图片描述

gradient descent

用gradient descent 来求 $\theta$ 以最大化expected reward
在这里插入图片描述
如果在 $s_t$ 执行 $a_t$ 导致整个trajectory的reward是正的，那么就要增加在 $s_t$ 执行 $a_t$ 的几率 $p(a_t|s_t)$ , 反之就要减小这个几率.
$\theta$ 更新：

在这里插入图片描述
实践中可以想成一个多分类问题
如果对于一个state你采样到做了action a 那么就把action a 作为label
minimize cross entropy = maximize log-likelihood
与mll的区别就是要乘上一个weight，也就是total reward

如何正确表示R

Tip1: Baseline

R 如果一直是负的，会造成问题，所以要减去baseline
在这里插入图片描述

Tip2: Credit

一个整体reward是正的，但不代表其中每一步都是好的，所以加入credit
在这里插入图片描述

PPO

on-policy & off-policy

on-policy: 学习的agent和与环境交互的agent是同一个。–自己学下棋
off-policy: 学习的agent和与环境交互的agent不是同一个。 – 看别人学下棋

假设我们只能在q这个分布中采样，那么如何表示期望：
在这里插入图片描述
q和p的分布不能差距太大的原因：

$\theta'$ 是示范给 $\theta$ 看, 跟环境做互动会发生什么。我们要优化的是theta。
在这里插入图片描述

PPO: 加入KL散度惩罚

ppo本质就是走好几步之后在调整一次，普通的policy gradient就是每一步都要更新
在这里插入图片描述

横轴： $p_\theta / p_\theta^k$ ; 如果A>0 希望 $p_\theta$ 越大越好，但是不能超过 $1+\epsilon$ ; 反之不能小于 $1-\epsilon$

Citroooon

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【学习ChatGPT】 3. PPO

expected reward: 穷举所有trajectory，算出total reward的均值。off-policy: 学习的agent和与环境交互的agent不是同一个。on-policy: 学习的agent和与环境交互的agent是同一个。一个整体reward是正的，但不代表其中每一步都是好的，所以加入credit。与mll的区别就是要乘上一个weight，也就是total reward。导致整个trajectory的reward是正的，那么就要增加在。的reward就是reward的期望值。
复制链接

扫一扫