强化学习VPG和PPO的区别

最新推荐文章于 2024-07-22 11:47:36 发布

stanleyrain

最新推荐文章于 2024-07-22 11:47:36 发布

阅读量600

点赞数 1

文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/stanleyrain/article/details/127862251

版权

on-policy策略，是指使用当前策略生成的数据来更新当前策略；

off-policy策略，是指可以使用非当前策略生成的数据来更新当前策略；

举例：Agent使用策略 $\pi _{t}$ 与环境互动，生成数据 $D_{t}$ ，使用 D_t 更新策略 $\pi_t$ 获得新的策略 $\pi_{t+1}$ ，数据 D_t 被丢弃，则是on-policy策略；

Agent使用策略 $\pi _{t}$ 与环境互动，生成数据 $D_{t}$ ，使用 D_1, D_2, D_3, ... , D_t 来更新策略 $\pi_t$ 获得新的策略 $\pi_{t+1}$ ，数据 D_t 被存储到数据缓冲池，用于下一次策略的更新，则是off-policy策略。

从定义可以知，on-policy策略的数据利用效率低，off-policy策略可以使用先前策略生成的数据，因此，off-policy的策略较高。

1. VPG是on-policy策略，每次和环境互动（一个epoch），使用当前策略，生产一批数据（batch），然后使用这些数据对当前策略进行一次更新，之后数据被丢弃；

2. DQN是off-policy，每次和环境互动，使用当前策略，生产一批数据，将新生产的数据存储到数据缓冲区，使用缓存区的数据更新t时刻的目标策略，生成t+1时刻的目标策略，接着，继续使用当前策略生成一批数据，存入缓冲区，使用缓冲区数据更新目标策略；经过一定次数的更新后，使用目标策略t+n更新当前策略, 继续上述过程；

3. PPO策略是on-policy策略，相比VPG策略，PPO策略使用当前策略生成的数据，对当前策略进行了多次更新，而非VPG的一次更新。多次更新带来了数据利用率的提升，学习效率的提升，但同时引入了不稳定性，即：由于数据并非更新后的策略生成，导致数据差异与当前策略较大，为了解决这个问题，PPO比较新旧策略的差异，如果差异过大，则进行修剪更新的范围，防止过大的更新导致网络不稳定，从而导致训练过程发散。

以openAI spinning up中代码为例，VPG和PPO代码的主要区别在于，更新函数中，PPO使用同一数据，对策略进行了多次更新（学习），图中的循环train_pi_iters则是该更新的次数。

stanleyrain

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
强化学习VPG和PPO的区别

on-policy和off-policy是强化学习的重要概念，解释了VPG（Vanilla Policy Gradient）和PPO（Proximal Policy Optimization）两个算法差异
复制链接

扫一扫