【强化学习】SPG DPG DDPG（DPG3）

最新推荐文章于 2024-02-18 11:24:46 发布

Flanoc

最新推荐文章于 2024-02-18 11:24:46 发布

阅读量854

点赞数

分类专栏： DPG 文章标签：强化学习

本文链接：https://blog.csdn.net/Flanoc/article/details/111997663

版权

DPG 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

数学公式警告

Policy Gradient

$\begin{aligned}J(\pi_\theta)=&\int_S \rho^\pi(s)\int_A \pi_\theta (s,a)r(s,a)dads\\=&E_{s\sim \rho^\pi ,a\sim \pi_\theta}[r(s,a)]\end{aligned}$

$\rho^\pi(s') = \int_S \sum_{t=1}^ {\infty} \gamma^{t-1}p_1(s)p(s\to s',t,\pi)ds$

其中 $p_1(s)$ 表示初始状态为s的概率

$p(s->s',t,\pi)$ 表示在策略 $\pi$ 下状态s经过t时间到达s’

SPG

stochastic policy gradient

随机指随即策略 $\pi_\theta(a|s)=P[a|s,;\theta]$ ，
$\begin{aligned} \nabla_\theta J(\pi_\theta)=&\int_S \rho^\pi(s)\int_A \nabla_\theta \pi_\theta (s,a)Q^\pi(s,a)dads\\=&E_{s\sim \rho^\pi ,a\sim \pi_\theta}[\nabla_\theta log \pi_\theta(s,a)Q^\pi(s,a)]\end{aligned}$

DPG

deterministic policy gradient

得出的Policy对于一个state的action是确定的
$\begin{aligned}J(\mu_\theta)=&\int_S \rho^\mu(s) r(s,\mu_\theta(s))ds\\=&E_{s\sim \rho^\mu}[r(s,\mu_\theta(s))]\end{aligned}$

$\begin{aligned}\nabla_\theta J(\mu_\theta)=&\int_S \rho^\mu(s) \nabla_\theta \mu_\theta (s) \nabla_a Q^\mu(s,a)|_{a=\mu_\theta(s)}ds\\=&E_{s\sim \rho^\mu}[\nabla_\theta \mu_\theta(s) \nabla_a Q^\mu(s,a)|_{a=\mu_\theta(s)}]\end{aligned}$

DDPG

Flanoc

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【强化学习】SPG DPG DDPG（DPG3）

数学公式警告Policy GradientKaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲J(\pi_\theta)=&…ρπ(s′)=∫S∑t=1∞γt−1p1(s)p(s→s′,t,π)ds\rho^\pi(s') = \int_S \sum_{t=1}^ {\infty} \gamma^{t-1}p_1(s)p(s\to s',t,\pi)dsρπ(s′)=∫S∑t=1∞
复制链接

扫一扫

专栏目录