【强化学习的数学原理】第十课：Actor-Critic

最新推荐文章于 2024-07-08 18:05:38 发布

♚℡灬

最新推荐文章于 2024-07-08 18:05:38 发布

阅读量166

点赞数

分类专栏：强化学习文章标签：机器学习 python 算法

本文链接：https://blog.csdn.net/qq_44044341/article/details/134123406

版权

强化学习专栏收录该内容

10 篇文章 2 订阅

订阅专栏

actor 与 critic

actor：策略，更新策略的过程
critic：依据value estimation 的 policy evaluation

$\theta_{t+1}=\theta_t+\alpha \nabla_\theta \ln \pi\left(a_t \mid s_t, \theta_t\right) q_t\left(s_t, a_t\right)$

上式子就是actor算法
$q_t\left(s_t, a_t\right)$ 是critic方法
- 上节课说的采用蒙特卡洛的方法其就是REINFORCE
- 本节课采用的TD方法来进行解决就是actor-critic方法

【QAC伪代码】

目标：为了 maximizing $J(\theta)$ . 选择最优的策略
在每一步 $t$ ，首先依据 $\pi\left(a \mid s_t, \theta_t\right)$ 生成 $a_t$ ，获得 $r_{t+1}, s_{t+1}$ ，然后依据 $\pi\left(a \mid s_{t+1}, \theta_t\right)$ 获得 $a_{t+1}$ … $\left(s_t, a_t, r_{t+1}, S_{t+1}, a_{t+1}\right)$
- Critic（value update）：
  $\begin{aligned} & w_{t+1}=w_t+\alpha_w\left[r_{t+1}+\gamma q\left(s_{t+1}, a_{t+1}, w_t\right)-q\left(s_t, a_t, w_t\right)\right] \nabla_w q\left(s_t, a_t, w_t\right) \end{aligned}$
- Actor（policy update）：
  $\theta_{t+1}=\theta_t+\alpha_\theta \nabla_\theta \ln \pi\left(a_t \mid s_t, \theta_t\right) q\left(s_t, a_t, w_{t+1}\right)$

【Advantage actor-critic（A2C）】

在QAC的基础上增加一个片质量来减少估计的方差

$\begin{aligned} \nabla_\theta J(\theta) & =\mathbb{E}_{S \sim \eta, A \sim \pi}\left[\nabla_\theta \ln \pi\left(A \mid S, \theta_t\right) q_\pi(S, A)\right] \\ & =\mathbb{E}_{S \sim \eta, A \sim \pi}\left[\nabla_\theta \ln \pi\left(A \mid S, \theta_t\right)\left(q_\pi(S, A)-b(S)\right)\right] \end{aligned}$

在其后增加一个 $b (S)$ 是一个偏执量，关于 $S$ 的函数其俩是相同的

问题1：为什么成立？

回答：因为：
$\mathbb{E}_{S \sim \eta, A \sim \pi}\left[\nabla_\theta \ln \pi\left(A \mid S, \theta_t\right) b(S)\right]=0$

$\begin{aligned} \mathbb{E}_{S \sim \eta, A \sim \pi}\left[\nabla_\theta \ln \pi\left(A \mid S, \theta_t\right) b(S)\right] & =\sum_{s \in \mathcal{S}} \eta(s) \sum_{a \in \mathcal{A}} \pi\left(a \mid s, \theta_t\right) \nabla_\theta \ln \pi\left(a \mid s, \theta_t\right) b(s) \\ & =\sum_{s \in \mathcal{S}} \eta(s) \sum_{a \in \mathcal{A}} \nabla_\theta \pi\left(a \mid s, \theta_t\right) b(s) \\ & =\sum_{s \in \mathcal{S}} \eta(s) b(s) \sum_{a \in \mathcal{A}} \nabla_\theta \pi\left(a \mid s, \theta_t\right) \\ & =\sum_{s \in \mathcal{S}} \eta(s) b(s) \nabla_\theta \sum_{a \in \mathcal{A}} \pi\left(a \mid s, \theta_t\right) \\ & =\sum_{s \in \mathcal{S}} \eta(s) b(s) {{\nabla_\theta 1 }}=0 \end{aligned}$

问题2：为什么考虑偏执量？

回答：因为对方差有影响，想找最好的偏执使得方差最少。
$b(s)=\mathbb{E}_{A \sim \pi}[q(s, A)]=v_\pi(s)$

✌将偏置用到actor-critic中：

$\begin{aligned} \theta_{t+1} & =\theta_t+\alpha \mathbb{E}\left[\nabla_\theta \ln \pi\left(A \mid S, \theta_t\right)\left[q_\pi(S, A)-v_\pi(S)\right]\right] \\ & \doteq \theta_t+\alpha \mathbb{E}\left[\nabla_\theta \ln \pi\left(A \mid S, \theta_t\right) \delta_\pi(S, A)\right] \end{aligned}$

其中：
$\delta_\pi(S, A) \doteq q_\pi(S, A)-v_\pi\left(S\right)$
于是：
$\begin{aligned} \theta_{t+1} & =\theta_t+\alpha \nabla_\theta \ln \pi\left(a_t \mid s_t, \theta_t\right) \delta_t\left(s_t, a_t\right) \\ & =\theta_t+\alpha \frac{\nabla_\theta \pi\left(a_t \mid s_t, \theta_t\right)}{\pi\left(a_t \mid s_t, \theta_t\right)} \delta_t\left(s_t, a_t\right) \\ & =\theta_t+\alpha \underbrace{\left(\frac{\delta_t\left(s_t, a_t\right)}{\pi\left(a_t \mid s_t, \theta_t\right)}\right)}_{\text {step size }} \nabla_\theta \pi\left(a_t \mid s_t, \theta_t\right) \end{aligned}$
最优策略是逼近TD error：
$\delta_t=q_t\left(s_t, a_t\right)-v_t\left(s_t\right) \rightarrow r_{t+1}+\gamma v_t\left(s_{t+1}\right)-v_t\left(s_t\right)$

✌A2C（TD actor-critic）伪代码：

目标：为了 maximizing $J(\theta)$ . 选择最优的策略
在每一步 $t$ ，首先依据 $\pi\left(a \mid s_t, \theta_t\right)$ 生成 $a_t$ ，获得 $r_{t+1}, s_{t+1}$ ，
- TD error（advantage function）：
  $\delta_t=r_{t+1}+\gamma v\left(s_{t+1}, w_t\right)-v\left(s_t, w_t\right)$
- Critic（value update）：
  $w_{t+1}=w_t+\alpha_w \delta_t \nabla_w v\left(s_t, w_t\right)$
- Actor（policy update）：
  $\theta_{t+1}=\theta_t+\alpha_\theta \delta_t \nabla_\theta \ln \pi\left(a_t \mid s_t, \theta_t\right)$

【Off-policy actor-critic】

✌重要性采样：

$\mathbb{E}_{X \sim p_0}[X]=\sum_x p_0(x) x=\sum_x p_1(x) \underbrace{\frac{p_0(x)}{p_1(x)}}_{f(x)} x=\mathbb{E}_{X \sim p_1}[f(X)]$

如何求 $\mathbb{E}_{X \sim p_1}[f(X)]$ ？
$\bar{f} \doteq \frac{1}{n} \sum_{i=1}^n f\left(x_i\right), \quad \text { where } x_i \sim p_1$

于是：
$\begin{aligned} \mathbb{E}_{X \sim p_1}[\bar{f}] & =\mathbb{E}_{X \sim p_1}[f(X)] \\ \operatorname{var}_{X \sim p_1}[\bar{f}] & =\frac{1}{n} \operatorname{var}_{X \sim p_1}[f(X)] \end{aligned}$
于是我们要求的可以写成：
$\mathbb{E}_{X \sim p_0}[X] \approx \bar{f}=\frac{1}{n} \sum_{i=1}^n f\left(x_i\right)=\frac{1}{n} \sum_{i=1}^n \frac{p_0\left(x_i\right)}{p_1\left(x_i\right)} x_i$

$\frac{p_0\left(x_i\right)}{p_1\left(x_i\right)}$ ：叫做重要性权重
- $p_1\left(x_i\right)=p_0\left(x_i\right)$ ：重要性权重是1， $\bar{f}$ 是 $\bar{f}$ $\bar{x}$
- $p_0\left(x_i\right) \geq p_1\left(x_i\right)$ ：给它重要性权重

✌off-policy gradient：

$\nabla_\theta J(\theta)=\mathbb{E}_{S \sim \rho, A \sim \beta}\left[\frac{\pi(A \mid S, \theta)}{\beta(A \mid S)} \nabla_\theta \ln \pi(A \mid S, \theta) q_\pi(S, A)\right]$

✌off-policy actor-critic：

$\theta_{t+1}=\theta_t+\alpha_\theta \frac{\pi\left(a_t \mid s_t, \theta_t\right)}{\beta\left(a_t \mid s_t\right)} \nabla_\theta \ln \pi\left(a_t \mid s_t, \theta_t\right)\left(q_t\left(s_t, a_t\right)-v_t\left(s_t\right)\right)$

其中：
$q_t\left(s_t, a_t\right)-v_t\left(s_t\right) \approx r_{t+1}+\gamma v_t\left(s_{t+1}\right)-v_t\left(s_t\right) \doteq \delta_t\left(s_t, a_t\right)$
于是可以重写为：

在这里插入图片描述

【Deterministic actor-critic（DPG）】

之前：

在这里插入图片描述

现在：

$\pi(a \mid s, \theta) \in[0,1]$ 这个策略可以是随机的也可以是确定的，现在我们将deterministic策略定义为：
$a=\mu(s, \theta) \doteq \mu(s)$
这个呢是从状态空间到动作空间的映射，有时也写成 $\mu(s)$

在这里插入图片描述

$J(\theta)=\mathbb{E}\left[v_\mu(s)\right]=\sum_{s \in \mathcal{S}} d_0(s) v_\mu(s)$

第一种是 $d_0\left(s_0\right)=1$ and $d_0\left(s \neq s_0\right)=0$ ，这种情况下从一种状态开始进行优化
第二种是 $d_0$ 是平稳分布的，它是off-policy的

使用梯度上升的方法：
$\theta_{t+1}=\theta_t+\alpha_\theta\left(\mathbb{E}_{S \sim \rho_\mu}\right)\left[\left.\nabla_\theta \mu(S)\left(\nabla_a q_\mu(S, a)\right)\right|_{a=\mu(S)}\right]$
这里面的均值变为：
$\theta_{t+1}=\theta_t+\left.\alpha_\theta \nabla_\theta \mu\left(s_t\right)\left(\nabla_a q_\mu\left(s_t, a\right)\right)\right|_{a=\mu\left(s_t\right)}$