[深度强化学习] [1] Vanilla Policy Gradient

最新推荐文章于 2023-05-26 12:45:18 发布

GrandpaDZB

最新推荐文章于 2023-05-26 12:45:18 发布

阅读量702

点赞数 3

分类专栏：强化学习文章标签：神经网络深度学习强化学习

本文链接：https://blog.csdn.net/GrandpaDZB/article/details/122606934

版权

文章目录1 目标函数与前置知识2 优势函数(Advantage function)3 折扣系数γ\gammaγ4 GAE(Generalized Advantage function Estimation)5 Vanilla Policy Gradient6 代码部分6.1 神经网络搭建6.1.1 策略网络6.1.2 价值网络6.1.3 Actor-Critic6.2 GAE Buffer6.3 VPG算法部分7 跑一下代码测试一下1 目标函数与前置知识Policy Gradient方法体现在用神经网络

摘要由CSDN通过智能技术生成

文章目录

1 目标函数与前置知识
2 优势函数(Advantage function)
3 折扣系数 $\gamma$
4 GAE(Generalized Advantage function Estimation)
5 Vanilla Policy Gradient
6 代码部分
7 跑一下代码测试一下

1 目标函数与前置知识

Policy Gradient方法体现在用神经网络学习策略和价值，基于对强化学习的概念认识，定义策略(Policy) 与 价值(Value)
$\text{Policy: } \pi(s|\theta)=\mathbb{P}\{(a,p_a)|s,\theta\} \\ \text{Value: } V(s)=\mathbb E[\Sigma_{\text{from s to terminal}}r]$
策略 $\pi$ 将给定的状态 $s$ 映射成动作 $a$ 的概率分布 $\mathbb{P}$ ，价值 $V$ 将状态 $s$ 映射成累积回报的期望。
为了避免繁杂的书写，一般将从初始状态 $s_{t=0}$ 到终点 $s_{t=T}$ 的马尔科夫过程记作一个轨迹(trajectory)

这两个映射在后续推导中都会用上，这里仅仅把它们表述成抽象的映射是非常方便的，因为它不需要有确定的结构，因此可以用任何可能的方式拟合这两个映射。在深度强化学习中就是使用神经网络完成对映射的学习。
$\pi_{\theta1}(s)=Network_{\theta1}(s)=distribution(a) \\ V_{\theta2}(s)=Network_{\theta2}(s)=state\ value\in\R$
$\tau=(s_0,a_0,r_0,s_1,\cdots,s_T)$
由于 $\tau$ 服从的概率分布显然只依赖于 $\theta$ ，不妨设 $\tau\sim p(\tau|\theta)$ 。
强化学习的任务可以描述成，提高轨迹的累积回报期望，所以需要被提高的目标函数为
$J(\theta)=\mathbb{E}[R(\tau)]$
其中 $R(\tau)$ 为轨迹 $\tau$ 产生的累积回报，可以看做关于 $\tau$ 的标量函数。
求解目标函数梯度的时候，使用一点小trick，如下
$\nabla_\theta\mathbb{E}[R(\tau)]=\nabla_\theta\int p(\tau|\theta)R(\tau)d\tau \\ = \int\nabla_\theta p(\tau|\theta)R(\tau)d \tau \\ = \int p(\tau|\theta)\nabla_\theta lnp(\tau|\theta)\cdot R(\tau) d \tau \\ = \mathbb{E}[\nabla_\theta lnp(\tau|\theta)\cdot R(\tau)]$
得到梯度式
$\nabla_\theta\mathbb{E}[R(\tau)]=\mathbb{E}[\nabla_\theta lnp(\tau|\theta)\cdot R(\tau)]$

继续对轨迹 $\tau$ 做化简，显然这个量在数学上没有办法进行直接运算。
$p(\tau|\theta)=\mu(s_0)\pi(a_0|s_0,\theta)p(s_1,r_0|s_0,a_0)\cdots\pi(a_{T-1}|s_{T-1},\theta)p(s_{T},r_{T-1}|s_{T-1},a_{T-1})$
注意到展开式中只有策略项是和 $\theta$ 有关的，其他项因为log作用变成求和后，都被梯度算子作用成0，所以显然有
$\nabla_\theta lnp(\tau|\theta)=\Sigma_{t=0}^{T-1}\nabla_\theta ln\pi(a_t|s_t,\theta)$

最低0.47元/天解锁文章

GrandpaDZB

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
[深度强化学习] [1] Vanilla Policy Gradient

文章目录1 目标函数与前置知识2 优势函数(Advantage function)3 折扣系数γ\gammaγ4 GAE(Generalized Advantage function Estimation)5 Vanilla Policy Gradient6 代码部分6.1 神经网络搭建6.1.1 策略网络6.1.2 价值网络6.1.3 Actor-Critic6.2 GAE Buffer6.3 VPG算法部分7 跑一下代码测试一下1 目标函数与前置知识Policy Gradient方法体现在用神经网络
复制链接

扫一扫

专栏目录