【强化学习】Trust Region Policy Optization（TRPO）

sword_csdn

已于 2022-10-18 17:15:01 修改

阅读量941

点赞数

分类专栏：机器学习文章标签：算法机器学习

于 2021-11-22 14:24:59 首次发布

本文链接：https://blog.csdn.net/sword_csdn/article/details/121406959

版权

机器学习专栏收录该内容

40 篇文章 8 订阅

订阅专栏

Policy Gradient的缺点

根据策略梯度方法，参数更新的方法是
$\theta_{new}=\theta_{old}+\alpha\nabla_\theta J$
策略梯度算法的硬伤就在更新步长 $\alpha$ ，当步长不合适时，更新的参数所对应的策略是一个更不好的策略，当利用这个更不好的策略进行采样学习时，再次更新的参数会更差，因此很容易导致越学越差，最后崩溃。
在这里插入图片描述
（对于监督性学习来说，当某次迭代前后结果相差太大时，下一次更新有可能会解决这个问题）
合适的步长是指当策略更新后，回报函数的值不能更差。为了实现这一点，一般的想法就是将新策略的回报分解为旧策略的回报加上旧策略的一些什么东西。

贝尔曼公式的等效方法

假设 $\eta(\pi_{\theta})$ 表示当前策略 $\pi_\theta$ 下轨迹 $\tau$ 的累积反馈值期望（ $\pi_\theta\rightarrow\pi$ ）：
$\eta(\pi)=E_{\tau\sim\pi}[\sum_{t=0}^\infty\gamma^t(r(s_t))]$
其中 $\gamma$ 是折扣系数。则新策略 $\widetilde{\pi}$ 与旧策略 $\pi$ 之间存在以下关系（类似于贝尔曼公式）：
$\eta(\widetilde{\pi})=\eta(\pi)+E_{\tau\sim\widetilde{\pi}}[\sum_{t=0}^\infty\gamma^tA_\pi(s_t,a_t)]\text{,(1)}$
其中 $A$ 称为优势函数。上式可以理解为：新策略后的累积反馈期望值=旧策略累积反馈期望值+新旧策略在该轨迹上的优势差。

优势函数
（1）假设 $s$ 是当前状态， $a_1,a_2$ 是接下来可能的两个动作，则值函数 $V (s)$ 表示状态 $s$ 下所有可能动作值函数关于动作概率的平均值。 $Q(s,a_1)$ 是单个动作对应的值函数。
$V_\pi(s)=\pi(a_1|s)Q_\pi(s,a_1)+\pi(a_2|s)Q(s,a_2)$
（2） $Q_\pi(s,a)-V_\pi(s)$ 指的是动作值函数相比于当前状态的值函数的优势，如果它大于0，这说明它比平均动作要好。
$A(s,a_1)=Q_\pi(s,a_1)-V_\pi(s)$
上述（1）可以进一步转换为：
$\begin{aligned} \eta(\widetilde{\pi})&=\eta(\pi)+\sum_{t=0}^\infty\sum_sP(s_t=s)\sum_a\widetilde{\pi}(a|s)\gamma^tA_\pi(s,a)\\ \\ \\ &=\eta(\pi)+\sum_s\rho_{\widetilde{\pi}}(s)\sum_a\widetilde{\pi}(a|s)A_\pi(s,a)\text{,(2)} \end{aligned}$
其中
在这里插入图片描述
即
$\rho_{\widetilde{\pi}}(s)=\sum_{t=0}^\infty\gamma^tP(s_t=s)$

四个技巧

基于式子（2），有以下四个技巧来解决问题
技巧（1）：使用旧策略的状态分布近似代替新策略的状态分布。
$\rho_{\widetilde{\pi}}(s)\approx\rho_\pi(s)$
技巧（2）：重要性采样方法，对动作分布进行处理。
$\sum_a\widetilde{\pi}(a|s)A_\pi(s,a)=E_{a\sim\pi}[\frac{\widetilde{\pi}(a|s)}{\pi(a|s)}A_\pi(s,a)]$
结合（1），（2）两个技巧，可以得到 $\eta(\pi)$ 的替代目标函数 $J(\pi)$
$J(\widetilde{\pi})=\eta(\pi)+E_{s\sim\rho,a\sim\pi}[\frac{\widetilde{\pi}(a|s)}{\pi(a|s)}A_\pi(s,a)]\text{,(3)}$

式子（2）和（3）的不同之处在于状态概率的不同，所以 $J(\widetilde{\pi})$ 和 $\eta(\widetilde{\pi})$ 为一阶相似
$\begin{cases} J(\pi)=\eta(\pi) \\ \nabla_\theta J(\pi)|_{\theta=\theta_{old}}=\nabla_\theta \eta(\pi)|_{\theta=\theta_{old}} \end{cases}$
通过一阶近似等条件，可以确定凸函数 $\eta(\widetilde{\pi})$ 的下界
在这里插入图片描述
即：

$\eta(\widetilde{\pi})\geq J(\widetilde{\pi})-C·D_{KL}^{max}(\pi,\widetilde{\pi})\text{,}C=\frac{2\epsilon\gamma}{(1-\gamma)^2}$
其中， $D_{KL}(\pi,\widetilde{\pi})$ 表示两个分布的KL散度。其次，可以利用这个下界证明策略的单调性（证明略）。
技巧（3）利用平均KL散度代替最大KL散度
技巧（4）使用 $\pi$ 代替 $\rho$
通过（3），（4）得到最终的优化目标函数与条件
$\begin{aligned} max_\theta E_{s\sim\pi,a\sim\pi}[\frac{\widetilde{\pi}(a|s)}{\pi(a|s)}A_\pi(s,a)]\\ \\ \text{subject to }E_{s\sim\pi}[D_{KL}(\pi(·|s),\widetilde{\pi}(·|s))]\leq\delta \end{aligned}$