强化学习算法——TRPO

最新推荐文章于 2024-09-06 11:36:40 发布

Vic_Hao

最新推荐文章于 2024-09-06 11:36:40 发布

阅读量1.2k

点赞数 1

分类专栏：强化学习

本文链接：https://blog.csdn.net/weixin_42018112/article/details/88350718

版权

强化学习专栏收录该内容

18 篇文章 3 订阅

订阅专栏

TRPO(Trust Region Policy Optimization), 置信域策略优化，是Policy Search Methods中的一类随机策略搜索算法，它正面解决了梯度更新步长选择的问题，给出了一种单调的策略改善方法。

回顾策略梯度的方法，在策略梯度中我们的更新满足如下关系：
$\theta_{new} = \theta_{old} + \alpha \triangledown_{\theta}J$

策略梯度的难点之一在于步长 $\alpha$ 的选择，当补偿选择不合适时更新的参数会变差，因此更容易导致越来越差，最后崩溃。
那么什么样的步长是合适的呢？
试想一下如果我们能找到一种步长，使每次更新时都能保证回报函数单调递增，这样的步长就是好步长，TRPO的核心就是解决这些问题。

我们用 $\tau$ 来表示一条轨迹（行为-状态序列），那么这种策略下的期望回报为：
$\eta(\widetilde{\pi}) = E_{\tau |\widetilde{\pi}}[\sum_{t=0}^{\infty}\gamma^{t}r(s_{t})]$

既然TRPO的目的是为了使每次更新的回报函数单调递增，那么一个很自然的想法就是将新策略对应的回报函数分解成原来策略的回报加上一个大于零的项，我们就得到了一个一直提升策略的方案。
所以我们得到如下等式：
$\eta (\widetilde{\pi}) = \eta(\pi) + E_{\tau \in \widetilde{\pi}}\sum_{t=0}^{\infty}[\gamma^{t}A_{\pi}(s_t, a_t)]$
其中
$A_{\pi}(s, a) = Q_{\pi}(s, a) - V_{\pi}(s) = E_{s' \sim P(s'|s, a)}[r(s) + \gamma V^{\pi}(s') - V^{\pi}(s)]$
证明：
$E_{\tau \in \widetilde{\pi}}[\sum_{t=0}^{\infty}\gamma^{t}A_{\pi}(s_t, a_t)]= E_{\tau \in \widetilde{\pi}}[\sum _{t=0}^{\infty}\gamma^{t}(r(s_t)+\gamma V_{\pi}(s_{t+1})-V_{\pi}(s_t))]$ $=E_{\tau \in \widetilde{\pi}}[\sum _{t=0}^{\infty}\gamma^{t}r(s_t)+\sum _{t=0}^{\infty}\gamma ^{t}(\gamma V_{\pi}(s_{t+1})-V_{\pi}(s_t))]$ $=E_{\tau \in \widetilde{\pi}}[\sum _{t=0}^{\infty}\gamma^{t}r(s_t)]+E_{s_{0}}[-V_{\pi}(s_{0})]$ 两种策略from the same initial state $=\eta(\widetilde{\pi}) - \eta(\pi)$

称 $A_{\pi}(s, a)$ 为advantage function, 状态值函数 $V_{\pi}(s)$ 是该状态下所有动作关于动作概率的期望，状态-动作值函数 $Q_{\pi}$ 是单个动作对应的值函数。因此advantage function指的是该动作比平均动作的优势。

我们将公式展开可以得到：
$\eta(\widetilde{\pi}) = \eta(\pi) + \sum_{t=0}^{\infty}\sum_{s}P(s_{t}=s|\widetilde{\pi})\sum_{a}\widetilde{\pi}(a|s)\gamma^{t}A^{\pi}(s, a)$
进一步变形得到：
$\eta(\widetilde{\pi}) = \eta(\pi) + \sum_{s}\rho_{\widetilde{\pi}}(s)\sum_{a}\widetilde{\pi}(a|s)\gamma^{t}A^{\pi}(s, a)$
式中 $\rho_{\widetilde{\pi}}(s) = P(s_{0}) + \gamma P(s_{1} = s) + \gamma^{2}P(s_{2} = s) + ...$