Proximal Policy Optimization(PPO 近似策略优化)---李宏毅课堂笔记

最新推荐文章于 2024-07-23 17:43:55 发布

Zrf@

最新推荐文章于 2024-07-23 17:43:55 发布

阅读量1k

点赞数 1

分类专栏：神经网络自动搜索文章标签：优化算法

本文链接：https://blog.csdn.net/weixin_41943637/article/details/101115304

版权

在这里插入图片描述

on-policy vs off-policy

on-policy ：此agent与environment互动的agent是同一个，简单来说就是你自己玩王者荣耀，然后不断地从失败中吸取教训，最后越玩越好。Policy Gradigent就是on-policy。
off-policy：此agent与environment互动的agent不是同一个，比如就像你看游戏博主教你玩王者荣耀，告诉你各种技巧，然后你从直播中学习，最后提高技能。我们本文中提到的PPO是off-policy。
在Policy Gradigent中我们知道 $\nabla \overline{R}_\theta = {E_{\tau \,-\, p_{\theta(\tau)}}}[R(\tau)\nabla\log p_{\theta}(\tau)]$ 在policy gradigent中 $\theta$ 更新的话，我们采样的数据也会更新。就像我们每次输的时候都会掉级，嘿嘿，我有一天下午从白金掉到了黄铜。
我们想要的是用 $\pi_{ {\theta}^\prime}$ 采样数据来训练 $\theta$ ，当 ${\theta}^\prime$ 更新时我们可以重复用采样数据，就像我们可以不停的看视频来学习提高技巧，不需要掉级。

重要采样

$E_{x \,-\,p}[f(x)]=\frac{1}{N} \sum_{i=1}^Nf(x^{i})$ 此公式是说从 $p (x)$ 取 $N$ 个样本，但是如果此 $x^i$ 并不是在 $p (x)$ 中而是在 $q (x)$ 中因为：
$E_{x \,-\,p}[f(x)]=\int{f(x)p(x)}dx$
且
$\int{f(x)p(x)}dx=\int{f(x)\frac{p(x)}{q(x)} q(x)}dx=E_{x \,-\,q}[\frac{p(x)}{q(x)}f(x)]$
此时
$E_{x \,-\,p}[f(x)]=E_{x \,-\,q}[\frac{p(x)}{q(x)}f(x)]$
那么我们在想 $Var_{x \,-\,p}[f(x)]$ 与 $Var_{x \,-\,q}[f(x)]$ 一样吗？

答案是否定的，那么何时他们的方差也相等呢？

首先我们可以知道
$Var[x]=E[f(x)^2]-[Ef(x)]^2$
那么我们可以计算出
$Var_{x \,-\,p}[f(x)]=E_{x-p}[f(x)^2]-[E_{x-p}f(x)]^2$
$Var_{x \,-\,q}[f(x)\frac{p(x)}{q(x)}]=E_{x-q}[f(x)^2(\frac{p(x)}{q(x)})^2]-[E_{x-q}(f(x)\frac{p(x)}{q(x)})]^2\\=\int{f(x)^2(\frac{p(x)}{q(x)})^2q(x)dx}-[E_{x-p}f(x)]^2\\=\int{f(x)^2\frac{p(x)}{q(x)}p(x)dx}-[E_{x-p}f(x)]^2\\=E_{x-p}[f(x)^2\frac{p(x)}{q(x)}]-[E_{x-p}f(x)]^2$