强化学习6——policy gradient的变种State of the Art

最新推荐文章于 2022-10-24 15:44:26 发布

菜且凶残_2017

最新推荐文章于 2022-10-24 15:44:26 发布

阅读量217

点赞数

分类专栏：强化学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_38800089/article/details/111596590

版权

强化学习专栏收录该内容

16 篇文章 6 订阅

订阅专栏

policy-base SOTA

学习周博雷老师课程总结

Natural Policy Gradient

为了改善PG算法的不稳定的缺点（如果更新到一个bad policy，就会采集到的一个坏的数据集，进而恶性循环。）

这样我们在两个策略之间限制一个距离(KL-divergence)，保证优化不会跑的太偏，优化的方法就变为下面这样一个等式，就是说我们在上一个策略周围找一个使得目标函数值最大的方向进行前进，下面就是Natural Policy Gradient的实现方式：
$d^{*}=\arg \max J(\theta+d),$ s.t. $L\left(\pi_{\theta} \| \pi_{\theta+d}\right)=c$

TRPO

TRPO=Natural Policy Gradient + importance sampling

根据sampling定理：
$\mathbb{E}_{x \sim p}[f(x)]=\int p(x) f(x) d x=\int q(x) \frac{p(x)}{q(x)} f(x) d x=\mathbb{E}_{x \sim q}\left[\frac{p(x)}{q(x)} f(x)\right]$
可以把目标函数写成：
$J(\theta)=\mathbb{E}_{a \sim \pi_{\theta}}[r(s, a)]=\mathbb{E}_{a \sim \hat{\pi}}\left[\frac{\pi_{\theta}(s, a)}{\hat{\pi}(s, a)} r(s, a)\right]$
这样我们就能用off-policy来进行价值函数的更新，即一个behavior policy，一个training policy，下面就是TRPO的优化公式：
$\begin{aligned} J_{\theta_{\text {old}}}(\theta) &=\mathbb{E}_{t}\left[\frac{\pi_{\theta}\left(a_{t} \mid s_{t}\right)}{\pi_{\theta_{\text {old}}}\left(a_{t} \mid s_{t}\right)} R_{t}\right] \\ \text { subject to } & K L\left(\pi_{\theta_{\text {old}}}\left(. \mid s_{t}\right) \| \pi_{\theta}\left(. \mid s_{t}\right)\right) \leq \delta \end{aligned}$

KFAC

提升TRPO的计算效率，

PPO

TRPO的简化版本
TRPO：
$\begin{array}{l} \operatorname{maximize}_{\theta} \mathbb{E}_{t}\left[\frac{\pi_{\theta}\left(a_{t} \mid s_{t}\right)}{\pi_{\theta_{\text {old}}}\left(a_{t} \mid s_{t}\right)} A_{t}\right] \\ \text { subject to } \mathbb{E}_{t}\left[K L\left[\pi_{\theta_{\text {old}}}\left(. \mid s_{t}\right), \pi_{\theta}\left(. \mid s_{t}\right)\right]\right] \leq \delta \end{array}$
PPO的优化简化：
$\operatorname{maximize}_{\theta} \mathbb{E}_{t}\left[\frac{\pi_{\theta}\left(a_{t} \mid s_{t}\right)}{\pi_{\theta_{o l d}}\left(a_{t} \mid s_{t}\right)} A_{t}\right]-\beta \mathbb{E}_{t}\left[K L\left[\pi_{\theta_{\text {old}}}\left(. \mid s_{t}\right), \pi_{\theta}\left(. \mid s_{t}\right)\right]\right]$
简化后的PPO用一阶优化过程SGD，而TRPO用了二阶的信息，所以二阶的较慢。

带clipping的PPO

$r_{t}(\theta)=\frac{\pi_{\theta}\left(a_{t} \mid s_{t}\right)}{\pi_{\theta_{\text {old}}}\left(a_{t} \mid s_{t}\right)}$
就是将价值函数的取值进行一个限制，则带有clipping的PPO的优化为：
$L_{t}(\theta)=\min \left(r_{t}(\theta) \hat{A}_{t}, \operatorname{clip}\left(r_{t}(\theta), 1-\epsilon, 1+\epsilon\right) \hat{A}_{t}\right)$
这里用clipping代替了KL-divergence这一项。

菜且凶残_2017

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习6——policy gradient的变种State of the Art

policy-base SOTA学习周博雷老师课程总结Natural Policy Gradient    为了改善PG算法的不稳定的缺点（如果更新到一个bad policy，就会采集到的一个坏的数据集，进而恶性循环。）     这样我们在两个策略之间限制一个距离(KL-divergence)，保证优化不会跑的太偏，优化的方法就变为下面这样一个等式，就是说我们在上一个策略周围找一个使得目标函数值最大的方向进行前进，下面
复制链接

扫一扫