强化学习策略梯度梳理1 - REINFORCE（附代码）

最新推荐文章于 2024-08-10 16:16:57 发布

ThousandsOfWind

最新推荐文章于 2024-08-10 16:16:57 发布

阅读量2.8k

点赞数

分类专栏：强化学习强化学习第二版

本文链接：https://blog.csdn.net/thousandsofwind/article/details/107081358

版权

本文介绍了策略梯度方法，特别是REINFORCE算法及其改进版REINFORCE-baseline，通过代码实践展示了在CartPole-v1环境中应用的效果，并与DQN进行对比，探讨了可能存在的问题及解决方案。

摘要由CSDN通过智能技术生成

策略梯度梳理 REINFORCE

策略梯度（PG）

主要参考文献 Reinforcement Learning: An introduction，Sutton
主要参考课程 Intro to Reinforcement Learning，Bolei Zhou
相关文中代码 https://github.com/ThousandOfWind/RL-basic-alg.git

策略梯度（PG）

首先定义遵从一般约定
$\in \mathcal{S}, a \in \mathcal{A}(s), \boldsymbol{\theta} \in \mathbb{R}^{d'}$

既然策略是 $\pi(a \mid s, \boldsymbol{\theta})=\operatorname{Pr}\left\{A_{t}=a \mid S_{t}=s, \boldsymbol{\theta}_{t}=\boldsymbol{\theta}\right\}$
我们假设这个策略有表现 $J\left(\boldsymbol{\theta}\right)$
我们希望能够根据 $J$ 的梯度更新策略 $\boldsymbol{\theta}_{t+1}=\boldsymbol{\theta}_{t}+\alpha \widehat{\nabla J\left(\boldsymbol{\theta}_{t}\right)}$

方向导数本质上研究的是函数在某点处沿某特定方向上的变化率问题，梯度反映的是空间变量变化趋势的最大值和方向。方向导数与梯度在微分学中有重要的运用。
具体等我把相关算法搞定再去看高数

这样问题就变成了怎么把表现和策略联合起来
然后sutton就说了，既然如此
$J(\boldsymbol{\theta}) \doteq v_{\pi_{\boldsymbol{\theta}}}\left(s_{0}\right)$
$v_{\pi}(s)=\left[\sum_{a} \pi(a \mid s) q_{\pi}(s, a)\right]$
⚠️用状态 $s_0$ 的价值是因为他还假设了条件 $\gamma = 1$ ，所以 $v_{\pi_{\boldsymbol{\theta}}}\left(s_{0}\right)$ 实际上能够代表轨迹上的收益和
因此 $J$ 的梯度可以参考状态值的梯度