本章数学问题太过复杂,建议去看看李宏毅老师这部分的内容,在此只贴出部分关于PPO的知识总结。
基于on-policy的policy gradient有什么可改进之处?或者说其效率较低的原因在于?
经典policy gradient的大部分时间花在sample data处,即当我们的agent与环境做了交互后,我们就要进行policy model的更新。但是对于一个回合我们仅能更新policy model一次,更新完后我们就要花时间去重新collect data,然后才能再次进行如上的更新。
所以我们的可以自然而然地想到,使用off-policy方法使用另一个不同的policy和actor,与环境进行互动并用collect data进行原先的policy的更新。这样等价于使用同一组data,在同一个回合,我们对于整个的policy model更新了多次,这样会更加有效率。
使用important sampling时需要注意的问题有哪些。
我们可以在important sampling中将 pp 替换为任意的 qq,但是本质上需要要求两者的分布不能差的太多,即使我们补偿了不同数据分布的权重,当我们对于两者的采样次数都比较多时,最终的结果时一样的,没有影响的。但是通常我们不会取理想的数量的sample data,所以如果两者的分布相差较大,最后结果的variance差距(平方级)将会很大。
基于off-policy的importance sampling中的 data 是从 θ \theta θ’sample 出来的,从 θ \theta θ 换成 θ ′ \theta' θ