个人认为写得最好的TRPO讲解

最新推荐文章于 2025-03-17 19:09:36 发布

weihe233

最新推荐文章于 2025-03-17 19:09:36 发布

阅读量1.7w

点赞数 18

分类专栏： deep reinforcement learning

原文链接：http://www.sohu.com/a/293026264_717210

版权

deep reinforcement learning 专栏收录该内容

2 篇文章

订阅专栏

自己在Medium上看到的一个教授讲解的关于TRPO的博客,觉得写得很清晰易懂,后来发现搜狐有机构号将博客翻译了,翻译的质量不错.故转发分享给大家,欢迎讨论.

强化学习-TRPO和PPO背后的数学

照片来源于 Nigel Tadyanehondo

TRPO 算法 (Trust Region Policy Optimization)和PPO 算法 (Proximal Policy Optimization)都属于MM(Minorize-Maximizatio)算法。在本文中，我们将介绍基础的MM算法，并且通过几个步骤推导出TRPO和PPO的目标函数。在我们的强化学习系列课程之中( Reinforcement Learning series )，我们将会分别学习不同的主题的内容。但是在本文之中，我们将会展示更多的数学细节给这些好奇的、想了解这些目标函数背后原因的读者们。

Surrogate function(替代函数)

RL( Reinforcement Learning即强化学习) 的目标就是最大化预期折扣奖励(the expected discounted rewards)。下图之中，红色的线表示期望折扣回，其中 η 被定义为：

Modified from source

MM是一种迭代方法，对于每次迭代，我们发现替代函数M(蓝线)有如下性质：

是η的下界函数
可用于估计当前策略的折扣奖励 η
易于优化(我们将会把替代函数近似估计为一个二次方程)

在每一次迭代之中，我们找到最佳的M点并且把它作为当前的策略。

之后，我们重新评估新策略的下界并且重复迭代。当我们持续这个过程，策略也会不断的改进。因为可能的策略是有限的，所以我们当前的概率最终将会收敛到局部或者全部最优的策略。

目标函数

如下所示，有原始的策略梯度PG、置信域策略梯度TRPO和近端策略优化PPO版本的目标函数。接下来我们将详细进行证明。

简而言之，我们想最大化优势函数：动作值函数（奖励的最大期望）减去对应状态拥有的基准值。约束条件为新旧策略的差异不能过大。本文余下部分将数学证明该约束问题。

值函数、动作值函数和优势函数的表达式

首先，我们先定义Q值函数、状态值函数和优势函数。直接书写如下：

折扣奖励函数

折扣奖励η的期望计算如下：

或者，我们可以使用其他策略计算策略的奖励。以便比较两种政策。

证明：

? 函数

接下来，使用MM算法找到当前策略下近似η下界局部值的函数。让我们将函数 ? 定义为：

如图，? 是下界函数M 的一部分（红色下划线）。

M中的第二项是KL-divergence KL散度

在当前的策略中，KL(θi, θi)=0. C*KL 项可以看作是 ? 的上限误差。

在当前的政策θi 中，我们可以证明 L 与 η 的第一个阶导数相同。

当 KL( θi, θi )=0 时， M 在近似于预期的奖励的局部值：这是对MM算法的要求。接下来我们讨论下界函数M的细节。TRPO 论文附录A中的两页证明 η的有一个确定的下限。

D_TV是总的散度方差。但这并不重要，因为我们将马上使用KL散度替代它，因为（找下界）

下界函数可以被重定义为：

注意，符号可以简记为：

单调上升的保证

自然策略梯度的关键思想是保证了函数单调上升。它是Policy Gradient方法家族中的“用货币担保”的版本（笑）。简而言之，至少在理论上，任何策略策更新都将比之前的好。我们在这需要证明的是，基于优化M的新策略可以保证在 η （实际预期回报）方面的表现优于之前的策略。由于策略的数量是有限的，持续更新策略最终能达到局部或全局最优。这是证明：

Mi(πi+1)对比Mi(πi)的任何改进都会使得η(πi+1)获得改进。