基于离线策略的强化学习(PPO)

最新推荐文章于 2024-08-07 19:06:52 发布

lsjmax

最新推荐文章于 2024-08-07 19:06:52 发布

阅读量3k

点赞数 6

分类专栏：强化学习文章标签：离线策略 PPO 强化学习

本文链接：https://blog.csdn.net/lsjmax/article/details/102654944

版权

本文介绍了离线策略强化学习的概念，探讨了重要性采样在策略梯度中的应用，以及由此引出的离线策略梯度计算方法。重点讲解了PPO算法，如何通过KL散度约束来保持采样策略和目标策略的分布接近，并介绍了PPO2算法通过梯度裁剪简化这一过程。

摘要由CSDN通过智能技术生成

离线策略强化学习

对于基于策略的强化学习，通过建立带 $\theta$ 的策略模型，通过策略梯度进行优化，梯度如下 $\nabla_\theta U=E_{\tau -p_\theta(\tau)}[\nabla_\theta log P_\theta(\tau)R(\tau)]$
该方法是在线策略（on-policy），即学习更新的策略和与环境交互采样的策略是同一个，这带来一个问题，当进行策略参数 $\theta$ 更新后，原来旧 $\theta$ 的策略采样的数据就无法在用了，需要用新的策略采样才能进行梯度计算。这样样本利用率低，训练时间长。
因此需要将目标策略和采样策略进行分离，利用重要性采样进行梯度计算。

重要性采样

假设 $f (x)$ 服从 $p (x)$ 分布，求x的期望 $E(x)=\int p(x)xdx$
我们想用采样的方式进行计算，但是服从 $p (x)$ 分布的样本不好得到，相反，服从 $q (x)$ 分布的样本好得到。因此我们想用 $q (x)$ 分布的样本来代替 $p (x)$ 分布的样本，显然这是有误差的，因此需要对期望进行修正。
在这里插入图片描述
其中 $\over q(x)}$ 称为重要因子，相当于把 $q (x)$ 分布的样本当场是真实 $p (x)$ 分布的样本来计算时，需要乘上这个重要因子修正，保证这么做是可以的。
存在的问题
要求这两个分布要比较接近，差别不能太大。意味着目标学习策略的参数 $\theta$ 和采样策略的参数 $\theta ^{\prime}$ 要比较接近。

离线策略梯度

设学习目标的策略为 $π_\theta$ ,采样策略为 $π_{\theta^{\prime}}$
$\nabla_\theta U=E_{\tau -p_\theta(\tau)}[\nabla_\theta log P_\theta(\tau)R(\tau)]$
就变成了
$\nabla_\theta U=E_{\tau -p_{\theta^\prime}(\tau)}[{P_\theta(\tau)\over P_{\theta^\prime}(\tau)} \nabla_\theta log P_\theta(\tau)R(\tau)]$