强化学习—TPRO

Tony Wey

于 2024-08-12 15:35:02 发布

阅读量1.4k

点赞数 46

分类专栏：强化学习文章标签：人工智能强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38023194/article/details/141133107

版权

强化学习专栏收录该内容

23 篇文章

订阅专栏

强化学习—TPRO

TPRO

Trust Region Policy Optimization (TRPO) 是一种强化学习算法，旨在提高策略梯度方法的稳定性和效率。TRPO 通过限制每次策略更新的步长，确保策略的变化不会过大，从而避免学习过程中策略的崩溃或不稳定。

背景与动机

在策略梯度方法中，直接优化策略通常面临两个主要问题：

高方差：策略梯度的估计通常具有高方差，这会导致策略更新不稳定。
大步长更新的风险：如果每次策略更新的步长过大，新的策略可能偏离当前策略太远，从而导致策略性能急剧下降甚至崩溃。

TRPO 通过约束策略更新的步长，确保策略的逐步改善，避免出现上述问题。

核心思想

TRPO 的核心思想是，在优化策略时，限制新策略与旧策略之间的差异，使得新策略的变化在一个可信赖的范围内。这种方法的数学表述是通过限制策略分布的变化来实现的。

Kullback-Leibler (KL) 散度约束

TRPO 使用 KL 散度来度量新旧策略之间的差异。具体来说，TRPO 通过以下优化问题来更新策略：
$\text{maximize}_{\theta} \quad \mathbb{E}_{s \sim \pi_{\text{old}}, a \sim \pi_{\text{old}}} \left[ \frac{\pi_{\theta}(a|s)}{\pi_{\text{old}}(a|s)} A_{\pi_{\text{old}}}(s, a) \right] \\ \text{subject to} \quad \mathbb{E}_{s \sim \pi_{\text{old}}} \left[ \text{KL} \left( \pi_{\text{old}}(\cdot|s) || \pi_{\theta}(\cdot|s) \right) \right] \leq \delta 其中：$

$ \theta $ 是策略的参数。
$\pi_{\text{old}}$ 是旧策略， $\pi_{\theta}$ 是新的策略。
$A_{\pi_{\text{old}}}(s, a)$ 是 Advantage Function，表示在旧策略下某个动作的优势。
$\delta$ 是一个超参数，用来控制策略更新时允许的最大策略变化。

这个约束确保每次策略更新时，新的策略不会偏离旧策略太远，避免了由于步长过大导致的性能急剧下降。

TRPO 的优化过程

计算 Advantage Function: 使用旧策略估计 Advantage Function，作为策略优化的依据。
解决优化问题: 通过约束 KL 散度的优化问题，求解出新的策略参数。
更新策略: 使用得到的新参数来更新策略。

TRPO 的优点

稳定性：通过限制策略更新的步长，TRPO 能有效避免大幅度更新导致的策略崩溃，提高了策略优化的稳定性。
更好的收敛性：TRPO 通过稳健的更新方式，在许多复杂的强化学习任务中表现出更好的收敛性。

TRPO 的缺点

计算复杂度：TRPO 需要在每次更新中求解一个约束优化问题，计算复杂度较高。
实现复杂：与其他简单的策略优化方法相比，TRPO 的实现更为复杂，调参难度较大。

总结

Trust Region Policy Optimization (TRPO) 是一种强化学习策略优化算法，通过限制新旧策略之间的变化范围，确保每次更新都在一个信任区域内，从而提高学习过程的稳定性和效率。虽然 TRPO 在实际应用中表现良好，但它的计算复杂度和实现难度相对较高。

如果你有任何进一步的问题或需要更多信息，欢迎继续讨论！

笔记

梯度上升算法

使用于所求函数比较简单。

请添加图片描述

随机梯度上升算法

使用于所求函数是一种期望，需要使用蒙特卡洛去近似。

请添加图片描述

置信域算法

置信域

请添加图片描述

更简单的L函数在N置信域内近似函数J，可以使用L替代J。

请添加图片描述

算法原理思想

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

强化学习中的置信域算法

所求函数J是状态价值函数V的期望。

请添加图片描述

公式推导，状态价值函数通过蒙特卡罗近似—>求策略函数 $\pi$ 于动作价值函数Q的乘积连加—>加入 $\theta_{old}$ 的期望。

请添加图片描述

请添加图片描述

置信域策略优化算法

TRPO优点：

比策略梯度算法更鲁棒，策略梯度算法对超参数设定比较敏感，波动也大。
TRPO表现更稳定。
TRPO能训练效果更好的策略网络。

步骤：

蒙特卡洛近似

$\theta$ 是优化变量，需要求 $J(\theta)$ 的最大值，期望是关于状态S和动作A的

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

最大化

置信域条件目的是避免近似不好，让选取的新的 $\theta_{new}$ 也不会离 $\theta_{old}$ 太远。

KL散度是衡量两个概率分布的距离。

请添加图片描述

总结：

步骤1-4是更新一轮参数的步骤属于外层循环；第4步求解一个优化问题，内层也有循环，有两个超参数(梯度下降的步长、置信域的半径)。
请添加图片描述

策略梯度方法和TRPO方法对比

请添加图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Tony Wey 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。