策略梯度

最新推荐文章于 2024-07-15 09:59:45 发布

csdnqixiaoxin

最新推荐文章于 2024-07-15 09:59:45 发布

阅读量2.1k

点赞数 3

分类专栏：强化学习文章标签：策略梯度深度强化学习

本文链接：https://blog.csdn.net/csdnqixiaoxin/article/details/84230133

版权

强化学习专栏收录该内容

3 篇文章 3 订阅

订阅专栏

策略优化

本文内容摘自Open AI的深度强化学习资源Spinning Up，进入网址。

策略优化是无模型（model-free）强化学习方法的一类。它使用 $\pi_{\theta}(a|s)$ 来显式地表示策略，对参数 $\theta$ 直接利用梯度下降来优化（或者间接优化）。策略优化是on-policy的，即仅使用遵循最新策略所获得的数据来更新参数。

最简单的策略梯度

我们考虑随机策略 $\pi_{\theta}$ 的情况。目标是最大化期望回报 $J(\pi_{\theta}) = E_{\tau \sim \pi_{\theta}}[{R(\tau)}]$ 。可以采用梯度上升来优化目标：
$\theta_{k+1} = \theta_k + \alpha \left. \nabla_{\theta} J(\pi_{\theta}) \right|_{\theta_k}$

优化目标的梯度 $\nabla_{\theta} J(\pi_{\theta})$ 就是所谓的策略梯度，用梯度上升来优化策略的算法就是策略梯度算法。

现在，我们需要得到一个可以数值计算的策略梯度表达式。下面来推导这个表达式。

1、目标函数
上一篇文章提到目标函数是
$J(\pi) = \int_{\tau} P(\tau|\pi) R(\tau) = E_{\tau\sim \pi}[{R(\tau)}]$

其中
$P(\tau|\theta) = \rho_0 (s_0) \prod_{t=0}^{T} P(s_{t+1}|s_t, a_t) \pi_{\theta}(a_t |s_t)$

2、对数求导技巧

可以看到 $P(\tau|\theta)$ 是一个连乘积的形式，直接求导比较麻烦，因此，可以使用对数化积为和。根据 $\nabla_{x}logx=1/x$ 以及链式法则，可以得到： $\nabla_{\theta} P(\tau | \theta) = P(\tau | \theta) \nabla_{\theta} \log P(\tau | \theta)$

3、轨迹的Grad-Log-Prob
$\rho_0(s_0)$ 、 $P(s_{t+1}|s_t, a_t)$ 和 $R(\tau)$ 都不含参数 $\theta$ ，因此可以得到： $\nabla_{\theta} \log P(\tau | \theta) = \cancel{\nabla_{\theta} \log \rho_0 (s_0)} + \sum_{t=0}^{T} \bigg( \cancel{\nabla_{\theta} \log P(s_{t+1}|s_t, a_t)} + \nabla_{\theta} \log \pi_{\theta}(a_t |s_t)\bigg) \\ = \sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}(a_t |s_t)$

4、策略梯度
在这里插入图片描述

可见，这是一个期望表达式，我们在训练中无法准确求得它的值，但是可以进行抽样估计。

假设我们得到一个轨迹集合 $\mathcal{D} = \{\tau_i\}_{i=1,...,N}$ （遵循 $\pi_\theta$ ），则策略梯度可以这样计算：
$\hat{g} = \frac{1}{|\mathcal{D}|} \sum_{\tau \in \mathcal{D}} \sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}(a_t |s_t) R(\tau)$

注意：
对上述目标函数取负，得到一个loss，训练过程对这个loss应用梯度下降。但这里的loss不是传统意义上的loss！不同点在于：

数据分布依赖于参数：传统loss使用的数据（包括 $X$ 、 $y$ ，不包括 $\hat{y}$ ）与参数无关，而这里的loss使用的数据是基于一定参数（策略）得到的。
它不是性能的度量：传统的loss是性能的度量，我们的目标就是让它越来越小。而对于策略梯度中的loss，我们仅仅是使用一下它的负梯度，用于更新参数。参数更新之后，基于新的策略收集数据，计算新的loss，这时候不能保证新loss比原loss更小。所以，如果你运行Spinning Up提供的代码，会看到loss一直在增加！

因此，在策略梯度中，不必关注loss的值，我们只需要关注平均回报的值。

Reward-to-go策略梯度

目前得到的策略梯度公式是：
$\nabla_{\theta} J(\pi_{\theta}) = E_{\tau \sim \pi_{\theta}}[{\sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}(a_t |s_t) R(\tau)}]$

其中， $R(\tau)$ 是一个轨迹中所以奖励之和。也就是说，对于某个时刻 $t$ ，我们把时刻 $t$ 之前的奖励也考虑进去了。我们可以忽略这些项，从而得到下面的策略梯度：
$\nabla_{\theta} J(\pi_{\theta}) = E_{\tau \sim \pi_{\theta}}[{\sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}(a_t |s_t) \sum_{t'=t}^T R(s_{t'}, a_{t'}, s_{t'+1})}]$

其中， $\hat{R}_t \doteq \sum_{t'=t}^T R(s_{t'}, a_{t'}, s_{t'+1})$ 称为reward-to-go，相应的策略梯度称为“reward-to-go策略梯度”。

可以证明，在期望意义上，reward-to-go策略梯度与前面的策略梯度是相等的。但为什么要使用reward-to-go策略梯度？因为实际中我们的策略梯度是一个抽样平均，因此，t’ < t 的项就相当于噪声了。去掉这部分噪声，就可以使用更少的轨迹来做一次估计。

策略梯度中的基准（Baseline）

首先介绍一下EGLP（Expected Grad-Log-Prob）引理：

EGLP引理：假设 $P_\theta$ 是随机变量 $x$ 的参数化概率分布，则：
$E_{x \sim P_{\theta}}[{\nabla_{\theta} \log P_{\theta}(x)}]= 0$

假设 $b$ 是仅依赖与状态的函数，那么根据EGLP引理，有：
$E_{a_t \sim \pi_{\theta}}[{\nabla_{\theta} \log \pi_{\theta}(a_t|s_t) b(s_t)}] = 0$

因此我们可以在策略梯度上任意加上或减去这样的项，而不影响期望：
$\nabla_{\theta} J(\pi_{\theta}) = E_{\tau \sim \pi_{\theta}}[{\sum_{t=0}\nabla_{\theta} \log \pi_{\theta}(a_t |s_t) \left(\sum_{t'=t}^T R(s_{t'}, a_{t'}, s_{t'+1}) - b(s_t)\right)}]$

$b$ 在这里称为一个baseline。

最常用的baseline是 $b(s_t) = V^{\pi}(s_t)$ ，即on-policy价值函数。它能够有效降低抽样估计的方差（原理还没有搞懂）。

其他形式的策略梯度

可以看到，上面的策略梯度有着共同的形式：
$\nabla_{\theta} J(\pi_{\theta}) = E_{\tau \sim \pi_{\theta}}[{\sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}(a_t |s_t) \Phi_t}]$

$\Phi_t$ 有多种选择：
$\Phi_t = R(\tau)$

$\Phi_t = \sum_{t'=t}^T R(s_{t'}, a_{t'}, s_{t'+1})$

$\Phi_t = \sum_{t'=t}^T R(s_{t'}, a_{t'}, s_{t'+1}) - b(s_t)$

也有其他选择：
$\Phi_t = Q^{\pi_{\theta}}(s_t, a_t)$

$\Phi_t = A^{\pi}(s_t,a_t) = Q^{\pi}(s_t,a_t) - V^{\pi}(s_t)$

其中， $\Phi_t = A^{\pi}(s_t,a_t)$ 应用的最为普遍（它是在 $\Phi_t = Q^{\pi_{\theta}}(s_t, a_t)$ 的基础上加了一个baseline）。

csdnqixiaoxin

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
策略梯度

策略优化本文内容摘自Open AI的深度强化学习资源Spinning Up，进入网址。策略优化是无模型（model-free）强化学习方法的一类。它使用πθ(a∣s)\pi_{\theta}(a|s)πθ(a∣s)来显式地表示策略，对参数θ\thetaθ直接利用梯度下降来优化（或者间接优化）。策略优化是on-policy的，即仅使用遵循最新策略所获得的数据来更新参数。最简单的策略梯度...
复制链接

扫一扫

专栏目录