RL策略梯度方法之(三): Off-Policy Policy Gradient算法

最新推荐文章于 2024-05-28 12:19:40 发布

晴晴_Amanda

最新推荐文章于 2024-05-28 12:19:40 发布

阅读量1.5k

点赞数

分类专栏： RL 基础算法强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/qq_38293297/article/details/108742635

版权

强化学习同时被 2 个专栏收录

28 篇文章 27 订阅

订阅专栏

RL 基础算法

18 篇文章 13 订阅

订阅专栏

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。

文章目录

原理解析

原理解析

REINFORCE 和一般的actor-critic方法都是 on-policy：训练样本 根据 目标策略 收集—— 即是我们试图优化的策略。然而，离线策略（Off-Policy）方法会带来一些额外的好处：

off-policy 方法不需要完整的轨迹，并且可以重用任何过去的片段 (“experience replay”) 以获得更好的采样效率。
样本收集遵循与 目标策略 不同的 行为策略，从而带来更好的探索。

下面讲一下离线策略梯度是如何计算的。收集样本的行为策略是一个已知的策略（就像超参数一样预定义）记做： $\beta(a|s)$ 。目标函数对行为策略所定义的在状态分布上的reward 进行求和：

$J(\theta) = \sum_{s \in \mathcal{S}} d^\beta(s) \sum_{a \in \mathcal{A}} Q^\pi(s, a) \pi_\theta(a \vert s) = \mathbb{E}_{s \sim d^\beta} \big[ \sum_{a \in \mathcal{A}} Q^\pi(s, a) \pi_\theta(a \vert s) \big]$

其中， $d^\beta(s)$ 是行为策略 $\beta$ 的平稳分布，回顾一下： $d^\beta(s) = \lim_{t \to \infty} P(S_t = s \vert S_0, \beta)$ ； $Q^\pi$ 是关于目标策略 $\pi$ （而不是行为策略）估计的动作值函数。

假设训练观察值由 $\sim \beta(a \vert s)$ 采样，我们可以把梯度重写为：

$\begin{aligned} \nabla_\theta J(\theta) &= \nabla_\theta \mathbb{E}_{s \sim d^\beta} \Big[ \sum_{a \in \mathcal{A}} Q^\pi(s, a) \pi_\theta(a \vert s) \Big] & \\ &= \mathbb{E}_{s \sim d^\beta} \Big[ \sum_{a \in \mathcal{A}} \big( Q^\pi(s, a) \nabla_\theta \pi_\theta(a \vert s) + \color{red}{\pi_\theta(a \vert s) \nabla_\theta Q^\pi(s, a)} \big) \Big] & \scriptstyle{\text{; 导数乘积法则.}}\\ &\stackrel{(i)}{\approx} \mathbb{E}_{s \sim d^\beta} \Big[ \sum_{a \in \mathcal{A}} Q^\pi(s, a) \nabla_\theta \pi_\theta(a \vert s) \Big] & \scriptstyle{\text{; 忽略红色部分: } \color{red}{\pi_\theta(a \vert s) \nabla_\theta Q^\pi(s, a)}}. \\ &= \mathbb{E}_{s \sim d^\beta} \Big[ \sum_{a \in \mathcal{A}} \beta(a \vert s) \frac{\pi_\theta(a \vert s)}{\beta(a \vert s)} Q^\pi(s, a) \frac{\nabla_\theta \pi_\theta(a \vert s)}{\pi_\theta(a \vert s)} \Big] & \\ &= \mathbb{E}_\beta \Big[\frac{\color{blue}{\pi_\theta(a \vert s)}}{\color{blue}{\beta(a \vert s)}} Q^\pi(s, a) \nabla_\theta \ln \pi_\theta(a \vert s) \Big] & \scriptstyle{\text{; 蓝色部分是重要性权重.}} \end{aligned}$

因为 $Q^{\pi}$ 是目标策略的函数，因此也是策略参数 $\theta$ 的函数，所以根据乘积法则求出导数： $\nabla_\theta Q^\pi(s, a)$ ；事实上，计算它非常难。幸运的是，如果我们使用一个不考虑 $Q$ 的梯度的近似梯度，我们仍然保证了策略的改进，最终达到真正的局部最小值。这可以在 Off-Policy Actor-Critic (Degris, White & Sutton, 2012) 得到验证。

总的来说，当使用离线策略应用策略梯度的时候，我们可以简单使用一个加权和，即目标策略和行为策略的比值： $\frac{\pi_\theta(a \vert s)}{\beta(a \vert s)}$

晴晴_Amanda

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
RL策略梯度方法之(三): Off-Policy Policy Gradient算法

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现算法流程代码实现原理解析算法实现算法流程代码实现
复制链接

扫一扫