TRPO的优化方式比较复杂,对于某些模型结构无法使用,例如模型使用了dropout或policy跟value function模型参数进行了共享。PPO算法基于TRPO的目标函数进行了简化,使用目标函数的一阶导数进行policy的更新,并且更新时可以进行多次迭代,重复使用现有的数据更新policy。
先看TRPO的目标函数(是surrogate的)
其复杂的优化方式主要来源于那个hard的KL散度约束, 为了简化求解,可以将约束去掉,将KL作为惩罚项加到目标函数中,成为如下形式:
优化这个公式就很简单了,可以使用梯度的方法去优化。 这个目标函数存在的问题就是那个惩罚权重不太好确定,这也是为什么TRPO没有采用这个目标函数的原因。作者给出了个动态调整
的方法。先设定一个KL散度的目标值
,通过比较当前KL散度值与
的大小来动态调整
,公式如下:
还是很直接的,小了就减小KL的惩罚,大了就增大KL的惩罚。 但这个不是本文提出的最好方法,作者发现比这个更好的方法是使用如下目标函数,对TRPO目标函数进行clip:
其中 是重要性采样的比值
,因此
。上面公式将
前的权重clip到
,
是设定的一个参数,论文用
。当
时,需要增加
,因此
,其上界为
,如下图左边。当
时,需要降低
,因此
,其下界为
,如下图右边。下图红点为起始的
值,也就是
,
不会大于设定值。可以理解成
超过阈值的那些数据就不会用到了,梯度会倾向于更新policy使得policy调整
在阈值内的那些数据的结果。
上面目标函数的目的就是让policy的更新不会与之前差别太大,类似TRPO的trust region。在spinningup中将上式进行了一点修改,改成了下面目标函数:
其中
当时
函数变为下式,
不会大于
,跟上面的目的一样:
当时
函数变为下式,
不会小于
,跟上面的目的一样:
PPO总的算法流程:
其中第6步跟第7步是可以多次迭代更新参数的, 第6步更新时还增加了一个更新后KL散度的计算,使其KL散度不会大于某个设定的阈值,大了的话就early stop跳出迭代。