强化学习2--策略梯度(2)

最新推荐文章于 2024-03-30 01:19:02 发布

yyyybupt

最新推荐文章于 2024-03-30 01:19:02 发布

阅读量151

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/qq_41747565/article/details/88175277

版权

强化学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

$\pi:s\rightarrow a$

从s到最后一个状态的一个系列 $T:s_t,s_{t+1},\dots,s_T$

奖励 R(T) 是一个随机变量

目标函数：随机变量的期望 $J=\int R(T)P_\pi(T)dT$ (1)

$\pi^\ast:s\rightarrow u^\ast$ ：对于系列 $s_t,s_{t+1},\dots,s_T$ ，找到最优策略 $u_{{}^0}^\ast\rightarrow u_1^\ast\rightarrow u_{{}^2}^\ast\rightarrow\dots\rightarrow u_T^\ast$

假设神经网络的结构参数为 $\theta$

公式(1)化简可得： $J(\theta)=E_{T\sim\pi\theta(T)}\lbrack r(T)\rbrack=\int_{T\sim\pi\theta(T)}\pi_\theta(T)r(T)dT$ (2)

公式(2)求取梯度得： $\nabla_\theta J(\theta)=\int_{T\sim\pi\theta(T)}\nabla_\theta\pi_\theta(T)r(T)dT$ (3)

通过倒数求变换得： $\nabla_\theta\pi_\theta(T)=\pi_\theta(T)\nabla_\theta\log\pi_\theta(T)$ (4)

(4)代入(3)得到： $\nabla_\theta J(\theta)=\int_{T\sim\pi\theta(T)}\pi_\theta(T)\nabla_\theta\log\pi_\theta(T)r(T)dT$ (5)

对于序列T，策略 $\pi(T)=\pi(s_0,a_0,s_1,a_1,\dots,s_T,a_T)$

$\pi(T)=p(s_0)\prod_{t=0}^T\pi_\theta(a_t\vert s_t)p(s_{t+1}\vert s_t,a_t)$ (6)

将6代入5得：

$\begin{array}{l}\nabla_\theta\log\pi_\theta(T)=\nabla_\theta\log(p(s_0)\prod_{t=0}^T\pi_\theta(a_t\vert s_t)p(s_{t+1}\vert s_t,a_t))\\=\nabla_\theta(\log p(s_0)+{\textstyle\sum_{t=0}^T}\log\pi_\theta(a_t\vert s_t)+{\textstyle\sum_{t=0}^T}{\textstyle\log}p(s_{t+1}\vert s_t,a_t))\\={\textstyle\sum_{t=0}^T}\nabla_\theta{\textstyle\log}{\textstyle{\scriptstyle\pi}_\theta}{\textstyle(}{\textstyle{\scriptstyle a}_t}{\textstyle\vert}{\textstyle{\scriptstyle s}_t}{\textstyle)}\end{array}$ (7)

策略梯度： $\begin{array}{l}\nabla_\theta J(\theta)=E_{T\sim\pi\theta(T)}\lbrack\nabla_\theta l\mathrm{og}\pi_\theta(T)r(T)\rbrack\\=\frac1N{\textstyle\sum_{t=0}^N}\lbrack{\textstyle\sum_{t=0}^T}{\textstyle{\scriptstyle\nabla}_\theta}{\textstyle\log}{\textstyle\pi_\theta}{\textstyle(}{\textstyle a_t}{\textstyle\vert}{\textstyle s_t}{\textstyle)(\sum_{t=0}^Tr(s_t\vert a_t))\rbrack}\end{array}$