[强化学习]易混知识勘误_from李宏毅P2——PPO\Off-policy\On-policy

最新推荐文章于 2023-06-30 16:17:32 发布

Love_marginal

最新推荐文章于 2023-06-30 16:17:32 发布

阅读量2.8k

点赞数 5

分类专栏：强化学习

本文链接：https://blog.csdn.net/m0_37495408/article/details/105506394

版权

强化学习专栏收录该内容

20 篇文章 21 订阅

订阅专栏

本文是这篇博文的注，如有需要请以其为纲

知识勘误其他笔记链接

易混知识勘误_from李宏毅P1-----Policy Gradient

易混知识勘误_from李宏毅P2——PPO\Off-policy\On-policy

易混知识勘误_from李宏毅P3——Q_Learning

易混知识勘误_from李宏毅P4——Actor-Critic/A3C

易混知识勘误_from李宏毅P5——Sparse Reward的解决方法（目标太难怎么办）

易混知识勘误_from李宏毅P6——Imitation Learning 模仿式学习

1.难题：On-policy & Off-policy 有啥区别？

2.为啥训练的policy和样本的policy不一致也可以用？Importance Sampling

3.怎么理解Importance Sampling要求多次采样才能取等的限制？

4.PPO（Proximal Policy Optimization）是怎么回事？

5.PPO2-PPO的改进版

1.难题：On-policy & Off-policy 有啥区别？

若agent与环境互动，则为On-policy（此时因为agent亲身参与，所以互动时的policy和目标的policy一致）；若agent看别的agent与环境互动，自己不参与互动，则为Off-policy（此时因为互动的和目标优化的是两个agent，所以他们的policy不一致）。

两者在采样数据利用上的区别：

On：这时要求采样所用的policy和目标policy一致，采样后进行学习，学习后目标policy更新了，此时需要把采样的policy同步更新以保持和目标policy一致，这也就导致了需要重新采样。
Off：这种情况下，反正采样的plicy也和目标的policy不一样，所以你目标的policy随便更新，采样后的数据可以用很多次也可以。

2.为啥训练的policy和样本的policy不一致也可以用？Importance Sampling

首先声明一下：Importance Sampling的概念就是，把一个分布和函数值都会变的函数的期望，转化成分布不变函数值大变的函数的期望。

~~从Expected Reward观察on-policy：~~

故事：现在有一些档案，其中不同的档案有不同的分数，其中当档案的比例变了后，当把档案放回柜子的时候，柜子有魔法将会修改档案的内容。现在先把所有档案从柜子里拿出来，之后首先要把一些发潮的档案扔掉（有些 $\tau$ 没有被采样到），然后再通过扔掉一些档案调整各个档案的数量比，之后随机选10个出来，让分数最高。然后把档案放回柜子，此时因为档案的比例变了，所以档案的内容也变了。

上面的故事中，不同的档案就是不同的 $\tau$ ，档案的分数就是 $\tau$ 的，扔档案调整比例就是调整policy $\theta$ ，那么会根据比例调整档案内容的设定是从哪里来的呢？那是因为 $\tau$ （档案）的内容和policy（比例）有关，当policy改变的时候， $\tau$ 必然发生改变。

~~现在的问题是，每次从柜子中拿档案这个过程是由小蚂蚁进行的，这个过程可能要花费10天，我们想能不能让小蚂蚁只拿一次档案呢？~~

我们的目标是求这个：即，但是E的角标的p（ $\theta$ ）一直在变，我们不希望他一直在变，所以用下面这个式子代替之，这里的q不变，目的达成！

为什么p（ $\theta$ ）一直在变呢？ --因为我们的优化对象是 $\theta$ ，p（ $\theta$ ）中的自变量在变，所以它的函数值也在变

为什么我们不期望他一直在变呢？--因为 $\tau$ （Trajectory）是由 $\theta$ （policy）决定的，当policy改变的时候， $\tau$ 就会发生改变，这时候就需要重新生成一次 $\tau$ ，而这是十分费时间，所以不希望p（ $\theta$ ）一直在变

3.怎么理解Importance Sampling要求多次采样才能取等的限制？

如上图，首先明确：f(x)是一个函数，p是x的出现概率，q是x的另一种出现概率。期望获得p下x的f（x）的期望，但是目前只能对q下x进行采样。这时可通过第一行的式子进行转换。

上式的局限性：若采样很多，虽然概率小，但是也可能采到最左侧的那个采样点，因为它的p/q都很大，所以右式和左式可以相等；若采样不多，则上面的等式可能不成立。

4.PPO（Proximal Policy Optimization）是怎么回事？

Importance Sampling结合到RL中，这样就可以把一个policy所得到的 $\tau$ 集合多次使用。但是因为训练所得的policy $\theta$ 和样本数据的policy $\theta'$ 差别太大，所以对原问题加一个constrain KL（ $\theta$ ， $\theta'$ ）