TRPO理解

最新推荐文章于 2024-04-17 13:17:04 发布

Pang冉

最新推荐文章于 2024-04-17 13:17:04 发布

阅读量762

点赞数

本文链接：https://blog.csdn.net/qq_36979202/article/details/113504129

版权

原文链接

导论

$\eta(\pi)$ 代表在策略 $\pi$ 下产生一系列的回报函数

动作值函数，值函数，优势函数定义如下，这里的优势函数 $A_\pi$ 表示采用某个动作的优劣

对于新的策略 $\tilde{\pi}$ ，其回报函数 $\eta(\tilde{\pi})$ 可以写为旧策略的回报函数加一个其他项，写作

######证明分割线######

上式证明过程不难，原文可见，首先优势函数可写作

因此得证

######证明分割线######

进一步的，新策略的回报函数 $\eta(\tilde{\pi})$ 可以展开写作

其中，

对于一个改进策略 $\tilde{\pi}$ ，如果能做到 $\sum_a\tilde{\pi}(a|s)A_\pi(s,a)\ge0$ ,那么就说明改进策略的回报函数在递增， $\tilde{\pi}$ 比原策略 $\pi$ 更优秀，然而由于一些估计和近似误差，可能会导致 $\sum_a\tilde{\pi}(a|s)A_\pi(s,a)<0$ ,很难优化 $\eta(\tilde{\pi})$ ,因此引入一个近似值 $L_\pi(\tilde{\pi})$

$L_\pi(\tilde{\pi})$ 是 $\eta(\tilde{\pi})$ 的一阶近似，证明见Kakade & Langford (2002)，原文链接，所以当 $\pi$ 变化不大时，偏差不会特别大。其具有以下性质
定理1

该定理的证明过程见原文proofB。在以上定理中， $\alpha$ 代表 $\pi_{old}$ 和 $\pi_{new}$ 之间的最大KL散度，用来衡量二者的区别，当二者区别不大时，由 $\rho$ 近似带来的误差不会太大， $\eta$ 和 $L$ 相对比较接近。所以以优化 $\eta$ 的下界为目标，可以得到以下策略优化算法

算法1

TRPO算法相对于PG的优势由此可以体现，PG的更新步长选择不合适会无法找到全局最优点，不一定会让策略变好。但按照TRPO的策略更新公式，我们可以保证 $\eta$ 单调递增，从而得到一个单调递增的策略序列，这种算法也叫做 minorization-maximization (MM) 算法。由于 $L - C D$ 的表达式很难直接优化，原文也提出了一些近似优化方法。

近似优化方法

惩罚转化为约束
首先 $C$ 作为惩罚项，可能会导致更新步长非常小，故原文首先将惩罚项转化为新旧策略KL散度的约束项

$\delta$ 应该是精确的常数，即 $C$ 的对偶，但无法精确计算，所以只能人为设定一个值。
平均散度替代最大散度
上式的约束项给状态空间的每个状态都增加了约束，这意味着给新旧策略的KL散度增加了大量的约束，这是很难求解的。所以原文用平均KL散度替代
一些近似
根据以上两点，此时优化目标如下

为了让这个问题更加数值可解，做出如下近似
（1） $\sum_s\rho\theta_{old}(s)[...]$ 由期望 $1/(\gamma-1)E_{s\sim\rho_{\theta{old}}}[...]$ 代替
（2） $A_{\theta_{old}}$ 由 $Q_{\theta_{old}}$ 代替
（3）采用重要性采样代替对 $a$ 的求和
于是优化目标变为

动作采样

原文提出了两种动作采样的方法
1. single path
2. vine

Pang冉

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
TRPO理解

原文链接TRPO算法η(π)\eta(\pi)η(π)代表在策略π\piπ下产生一系列的回报函数动作值函数，值函数，优势函数定义如下，这里的优势函数AπA_\piAπ表示采用某个动作的优劣对于新的策略π~\tilde{\pi}π~，其回报函数可以写为旧策略的回报函数加一个其他项，写作上式证明过程不难，原文可见，首先优势函数可写作因此得证...
复制链接

扫一扫