【强化学习】策略梯度 Policy Gradient

最新推荐文章于 2024-07-21 19:18:55 发布

Jerry99s

最新推荐文章于 2024-07-21 19:18:55 发布

阅读量99

点赞数

文章标签：强化学习机器学习

本文链接：https://blog.csdn.net/jerry99s/article/details/120475684

版权

Policy Gradient Baseline 奖励分配梯度更新强化学习

关键词由CSDN通过智能技术生成

文章目录

Policy Gradient
Tip 1: Baseline
Tip 2: Assign suitable credit

Policy Gradient

设trajectory为 $\quad τ= \{ s_1, a_1, s_2, a_2,...,s_t,a_t\}$
设actor的参数为 $\theta$ ，根据 $\theta$ 可以计算某一个轨迹 $τ$ 的发生的概率
$p_\theta(τ)= p(s_1)\prod_{t=1}^Tp_\theta(a_t|s_t)p(s_{t+1}|s_t,a_t)$
设轨迹 $τ$ 的总奖励为
$R(τ)=\sum_{t=0}^Tr_t$
则在参数 $\theta$ 下总奖励 $R$ 的期望值为
$\mathbb{E}(R)=\sum_τp_\theta(τ)R(τ)=\mathbb{E}_{τ\sim p_\theta}(R(τ))$
其梯度为
$\begin{aligned} \nabla\mathbb{E}_{τ\sim p_\theta}(R(τ))&=\sum_τR(τ)\nabla p_\theta(τ)\\ &=\sum_τR(τ)p_\theta(τ)\nabla \log p_\theta(τ)\\ &=\mathbb{E}_{τ\sim p_\theta(τ)}(R(τ)\nabla \log p_\theta(τ))\\ &\approx \frac{1}{N}\sum_{n=1}^NR(τ^n)\nabla \log p_\theta(τ^n),\quad n是轨迹个数 \\ &=\frac{1}{N}\sum_{n=1}^NR(τ^n)\nabla \log [p(s_1^n)\prod_{t=1}^Tp_\theta(a_t^n|s_t^n)p(s_{t+1}^n|s_t^n,a_t^n)]\\ &=\frac{1}{N}\sum_{n=1}^NR(τ^n) \sum_{t=1}^T\nabla \log p_\theta(a_t^n|s_t^n)\\ &=\frac{1}{N}\sum_{n=1}^N\sum_{t=1}^TR(τ^n) \nabla \log p_\theta(a_t^n|s_t^n) \end{aligned}$

Tip 1: Baseline

我们想让导致 $R(τ^n)>0$ 的动作的概率变大，让导致 $R(τ^n)<0$ 的动作的概率变小，这体现在上式的正负上。然而有时候 $R(τ^n)$ 可能一直大于0，这时候采样到的动作的概率都会提升，只是有的提升大，有的提升小，这时候该怎么办呢，可以减去一个baseline。
$\nabla\mathbb{E}_{τ\sim p_\theta}(R(τ))=\frac{1}{N}\sum_{n=1}^N\sum_{t=1}^T[R(τ^n)-b] \nabla \log p_\theta(a_t^n|s_t^n)$
可以取 $b=\frac{1}{N}\sum R(τ^n)$ 即平均Return，
当 $R(τ^n)>b$ 时，让它的概率上升；当 $R(τ^n)<b$ 时，让它的概率下降。
这个b可以随着训练不断更新。

Tip 2: Assign suitable credit

我们不能根据Return $R(τ^n)$ 来判断某一个动作的好坏，因为它只能衡量这一串动作整体的好坏。更好的衡量标准是：用 $a_t$ 这个动作之后各步的reward来衡量，即
$\nabla_\theta \mathbb{E}_{τ\sim p_\theta}(R(τ))=\frac{1}{N}\sum_{n=1}^N\sum_{t=1}^T[\sum_{t'=t}^Tγ^{t'-t}r_{t'}^n-b] \nabla \log p_\theta(a_t^n|s_t^n)$
此时的b可以是state-value function $V (s)$ 。

References:
EasyRL( https://datawhalechina.github.io/easy-rl )

Jerry99s

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【强化学习】策略梯度 Policy Gradient

设trajectory为Trajectoryτ={s1,a1,s2,a2,...,st,at}Trajectory \quad τ= \{ s_1, a_1, s_2, a_2,...,s_t,a_t\}Trajectoryτ={s1,a1,s2,a2,...,st,at}设actor的参数为θ\thetaθ，根据θ\thetaθ可以计算某一个轨迹τττ的发生的概率pθ(τ)=p(s1)∏t=1Tpθ(at∣st)p(st+1∣st,at)p_\theta(τ)= p(s_1)\prod_{
复制链接

扫一扫