强化学习精要-第三部分-基于策略梯度的算法（on-policy）

最新推荐文章于 2023-08-23 15:45:03 发布

kuizhao8951

最新推荐文章于 2023-08-23 15:45:03 发布

阅读量1.8k

点赞数 1

分类专栏：强化学习

本文链接：https://blog.csdn.net/kuizhao8951/article/details/103038450

版权

文章目录

策略梯度法基本原理
策略单调提升算法

之前介绍的是基于最优价值的强化学习算法——值函数估计，通过最优值函数得到策略。
也就是说

a^*=argmax_a Q(s,a),a^*=\pi^*(s)

存在模型训练稳定性问题等。

基于策略梯度直接计算策略可能更新的方向：将值函数表示成策略参数的某个函数，可以求出值函数关于策略参数的梯度，沿着梯度上升的方向更新。

算法：策略梯度法->Actor Critic->A3C、A2C

策略梯度法基本原理

目标函数（值函数）
$J(\theta)=E_{\tau \sim \pi(\theta)} [r(\tau)] = \int _{\tau \sim \pi(\theta)}\pi_\theta(\tau)r(\tau)d\tau$
可以表示成这样与 $\theta$ 相关的函数，因为积分和求导运算可以互换
$\nabla_\theta J(\theta) = \nabla_\theta \int _{\tau \sim \pi(\theta)}\pi_\theta(\tau)r(\tau)d\tau= \int _{\tau \sim \pi(\theta)}\nabla_\theta\pi_\theta(\tau)r(\tau)d\tau$
又因为
$\nabla_xlogy=\frac 1 y \nabla_xy\\y\nabla_xlogy=\nabla_xy\\\nabla_\theta\pi_\theta(\tau)=\pi_\theta(\tau)\nabla_\theta log\pi_\theta(\tau)$
所以 $\nabla_\theta J(\theta) = \int _{\tau \sim \pi(\theta)}\nabla_\theta\pi_\theta(\tau)r(\tau)d\tau\\ = \int _{\tau \sim \pi(\theta)}\pi_\theta(\tau)\nabla_\theta log\pi_\theta(\tau)r(\tau)d\tau$
因为 $\pi_\theta(\tau)=\pi(s_0,a_0,...,s_T,a_T)\\=p(s_0)\prod^T_{t=0}\pi_\theta(a_t|s_t)p(s_{t+1}|s_t,a_t)\\ \text{所以}\\ \nabla_\theta log[\pi(\tau)]=\nabla_\theta log[p(s_0)\prod^T_{t=0}\pi_\theta(a_t|s_t)p(s_{t+1}|s_t,a_t)]\\ =\nabla_\theta[logp(s_0)+\sum^T_{t=0}log\pi_\theta(a_t|s_t)+\sum^T_{t=0}logp(s_{t+1}|s_t,a_t)]\\ \text{因为前后两项与}\theta无关\\ =\nabla_\theta[\sum^T_{t=0}log\pi_\theta(a_t|s_t)]\\ =\sum^T_{t=0}\nabla_\theta log\pi_\theta(a_t|s_t)$