《Proximal Policy Optimization Algorithms》--强化学习论文笔记_proximal policy optimization algorithms 论文-CSDN博客

本文链接：https://blog.csdn.net/ksvtsipert/article/details/118615472

本文是关于强化学习中Proximal Policy Optimization（PPO）算法的笔记，介绍了从on policy到off policy的转换，importance sampling的概念，以及PPO和TRPO的区别，强调了PPO通过KL散度约束策略更新的重要性，并探讨了PPO2算法的clip操作用于保持策略的稳定性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接
 Markdown公式速写

1. policy gradient 从on policy到 off policy

policy gradient：

\nabla\overline {R_\theta} = E_{\color{red}\tau \sim p_\theta(\tau)} [R(\tau)\nabla logp_\theta(\tau)]

更新过程：actor与环境互动，生成轨迹 $\tau$ , 之后按照梯度上升的方式更新policy network的参数。
问题：虽然使用相同轨迹执行多步优化看上去很秀，但是这样操作并不合理，实验证明它通常会导致破坏性的大策略更新
（感觉我的毕设是不是也存在这个问题？？？？？？？）
分析：按照公式，数据应该是从现在的policy $\theta$ 的分布中采样出来，然而当每次结束一回合，更新了参数之后，原本的 $\theta$ 已经发生变化，原有采样出的数据就不能再使用了，需要重新获取数据，因此生成数据需要耗费大量的时间。
改进：使用另外的policy $\theta'$ 来与环境交互生成数据，来训练 $\theta$ (数据可以多次用来做梯度上升更新网络）

2. importance sampling

$E_{x\sim p}[f(x)]\approx\frac{1}{N}\sum_{i=1}^Nf(x^i)$
从 $p$ 的分布中采样x，代入到f(x)中，计算f(x)的期望值, 其中 $x^i$ 是从 $p (x)$ 中采样得到的。

问题：如果现在无法从 $p (x)$ 中采样到 $x$ , 只有从另一个分布 $q (x)$ 中采样的数据 $x^i$ ，该如何计算原目标表达式？
$E_{x\sim p}[f(x)]= \int f(x)p(x)dx =\int f(x)\frac{p(x)}{q(x)}q(x)dx =E_{x\sim q}[f(x)\frac{p(x)}{q(x)}]$

按照上式，理论上来说，可以用另一个随机分布 $q (x)$ 替换 $p (x)$
但是， $E_{x\sim p}[f(x)]=E_{x\sim q}[f(x)\frac{p(x)}{q(x)}]$

$Var_{x\sim p}[f(x)]\neq Var_{x\sim q}[f(x)\frac{p(x)}{q(x)}]$
根据 $Var[X]=E[X^2]-(E[X])^2$ 可得，
$Var_{x\sim q}[f(x)\frac{p(x)}{q(x)}]=E_{x\sim q}[(f(x)\frac{p(x)}{q(x)})^2]-(E_{x\sim q}[f(x)\frac{p(x)}{q(x)}])^2=E_{x\sim p}[f(x)^2\frac{p(x)}{q(x)}]-(E_{x\sim p}[f(x)])^2$