【强化学习的数学原理】第九课：梯度策略

最新推荐文章于 2024-07-08 18:05:38 发布

♚℡灬

最新推荐文章于 2024-07-08 18:05:38 发布

阅读量104

点赞数

分类专栏：强化学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_44044341/article/details/134114841

版权

强化学习专栏收录该内容

10 篇文章 2 订阅

订阅专栏

value-based methods -> policy-based methods

value function approximation -> policy function approximation

【policy 梯度思想】

原本的策略表示：

在这里插入图片描述

现在的策略：
$\pi(a \mid s, \theta)$
其中 $\theta \in \mathbb{R}^m$ 是参数向量，原本是通过查表得形式得到策略，现在需要传播计算一次才能得到是多少

在这里插入图片描述

【Metric最优策略】

average state value：
$\bar{v}_\pi=\sum_{s \in \mathcal{S}} d(s) v_\pi(s)=\mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t R_{t+1}\right]$
- $\bar{v}_\pi$ ：是state value的加权平均
- $\geq 0$ ：状态 $s$ 的权重
- $\sum_{s \in \mathcal{S}} d(s)=1$ 也是状态 $s$ 被选中的概率
  $\bar{v}_\pi=\mathbb{E}\left[v_\pi(S)\right]$
  
  $\bar{v}_\pi=\sum_{s \in \mathcal{S}} d(s) v_\pi(s)=d^T v_\pi$
  - 其中 $\begin{aligned} v_\pi & =\left[\ldots, v_\pi(s), \ldots\right]^T \in \mathbb{R}^{|\mathcal{S}|} \\ d & =\left[\ldots, d^{(s)}, \ldots\right]^T \in \mathbb{R}^{|\mathcal{S}|}\end{aligned}$
- 如何选择 $d$ ：
  - $d$ 和 $\pi$ 没有关系： $d$ 变 $d_0$ 并且 $\bar{v}_\pi$ 变 $\bar{v}_\pi^0$ .，
    - 每个状态的权重相同的（均匀分布）， $d_0(s)=1 /|\mathcal{S}|$
    - 对于某些状态偏好，极端下 $d_0\left(s_0\right)=1, \quad d_0\left(s \neq s_0\right)=0$
  - $d$ 和 $\pi$ 有关系：根据测量不断与环境交互，可以预测在某个状态下平稳多少
  $d_\pi^T P_\pi=d_\pi^T$
average one-step reward：
$\bar{r}_\pi \doteq \sum_{s \in \mathcal{S}} d_\pi(s) r_\pi(s)=\mathbb{E}\left[r_\pi(S)\right]$
- $r_\pi(s) \doteq \sum_{a \in \mathcal{A}} \pi(a \mid s) r(s, a)$ 是从状态 $s$ 开始的一步立即奖励均值
  - $a)=\mathbb{E}[R \mid s, a]=\sum_r r p(r \mid s, a)$
  $\begin{aligned} \lim _{n \rightarrow \infty} \frac{1}{n} \mathbb{E}\left[\sum_{k=1}^n R_{t+k} \mid S_t=s_0\right] & =\lim _{n \rightarrow \infty} \frac{1}{n} \mathbb{E}\left[\sum_{k=1}^n R_{t+k}\right] \\ & =\sum_s d_\pi(s) r_\pi(s) \\ & =\bar{r}_\pi \end{aligned}$

metrics 1：

所有metrics关于策略的函数
策略是函数，参数是 $\theta$ ，所以上面所述都是 $\theta$ 的函数
所以希望找到最优的 $\theta$ 最大化metrics

metrics 2：

discount rate $\gamma \in[0,1)$ 或者 undiscounted case $\gamma=1$

metrics 3：
$\bar{r}_\pi=(1-\gamma) \bar{v}_\pi$
对一个做优化另一个也达到了极值

【metrics 的梯度】

梯度测量是policy gradient方法中最复杂的部分：

我们需要区分不同的metrics： $\bar{v}_\pi, \bar{r}_\pi, \bar{v}_\pi^0$
我们需要区分discounted 和 undiscounted 情况

$\nabla_\theta J(\theta)=\sum_{s \in \mathcal{S}} \eta(s) \sum_{a \in \mathcal{A}} \nabla_\theta \pi(a \mid s, \theta) q_\pi(s, a)$

$J(\theta)$ 可以是 $\bar{v}_\pi, \bar{r}_\pi$ , $\bar{v}_\pi^0$
"="可以是严格相等、约等、成比例等
$\eta$ 是状态的权重

$\begin{gathered} \nabla_\theta \bar{r}_\pi \simeq \sum_s d_\pi(s) \sum_a \nabla_\theta \pi(a \mid s, \theta) q_\pi(s, a), \\ \nabla_\theta \bar{v}_\pi=\frac{1}{1-\gamma} \nabla_\theta \bar{r}_\pi \\ \nabla_\theta \bar{v}_\pi^0=\sum_{s \in \mathcal{S}} \rho_\pi(s) \sum_{a \in \mathcal{A}} \nabla_\theta \pi(a \mid s, \theta) q_\pi(s, a) \end{gathered}$

我们可以将上面的式子进行重写：
$\begin{aligned} \nabla_\theta J(\theta) & =\sum_{s \in \mathcal{S}} \eta(s) \sum_{a \in \mathcal{A}} \nabla_\theta \pi(a \mid s, \theta) q_\pi(s, a) \\ & =\mathbb{E}\left[\nabla_\theta \ln \pi(A \mid S, \theta) q_\pi(S, A)\right] \end{aligned}$
其中 $\sim \eta$ 并且 $\sim \pi(A \mid S, \theta)$

【梯度上升算法REINFORCE】

$\begin{aligned} \theta_{t+1} & =\theta_t+\alpha \nabla_\theta J(\theta) \\ & =\theta_t+\alpha \mathbb{E}\left[\nabla_\theta \ln \pi\left(A \mid S, \theta_t\right) q_\pi(S, A)\right] \end{aligned}$

环境的信息是没法全部知道的，我们用随机的梯度替代
$\theta_{t+1}=\theta_t+\alpha \nabla_\theta \ln \pi\left(a_t \mid s_t, \theta_t\right) q_\pi\left(s_t, a_t\right)$
$q_\pi$ 是策略 $\pi$ 所对应的真实的action value，我们没法知道，所以我们进行近似
$\theta_{t+1}=\theta_t+\alpha \nabla_\theta \ln \pi\left(a_t \mid s_t, \theta_t\right) q_t\left(s_t, a_t\right)$

蒙特卡洛方法：相结合叫做reinforce
TD算法

我们可以将上面式子进行重写：
$\begin{aligned} \theta_{t+1} & =\theta_t+\alpha \nabla_\theta \ln \pi\left(a_t \mid s_t, \theta_t\right) q_t\left(s_t, a_t\right) \\ & =\theta_t+\alpha \underbrace{\left(\frac{q_t\left(s_t, a_t\right)}{\pi\left(a_t \mid s_t, \theta_t\right)}\right)}_{\beta_t} \nabla_\theta \pi\left(a_t \mid s_t, \theta_t\right) . \end{aligned}$
这个时候我们发现一个有趣的现象：
$\theta_{t+1}=\theta_t+\alpha \beta_t \nabla_\theta \pi\left(a_t \mid s_t, \theta_t\right)$
当 $\alpha \beta_t$ 步长不大的时候：

$\beta_t>0$ ：梯度上升
$\sigma^2=-174+10 \log _{10} B_m$
$\beta_t<0$ ：梯度下降
$\pi\left(a_t \mid s_t, \theta_{t+1}\right)<\pi\left(a_t \mid s_t, \theta_t\right) .$

当 $\theta_{t+1}-\theta_t$ 的时候
$\pi\left(a_t \mid s_t, \theta_{t+1}\right) \approx \pi\left(a_t \mid s_t, \theta_t\right)+\left(\nabla_\theta \pi\left(a_t \mid s_t, \theta_t\right)\right)^T\left(\theta_{t+1}-\theta_t\right)$
$\beta_t$ 能够用来平衡探索和利用

在这里插入图片描述

✌REINFORCE伪代码

对于第k个iteration
- 我们选择一个初始的state，依据当前的策略 $\pi\left(\theta_k\right)$ 与环境进行交互得到episode $\left\{s_0, a_0, r_1, \ldots, s_{T-1}, a_{T-1}, r_T\right\}$
- 对其中每个元素：
  - value update： $q_t\left(s_t, a_t\right)=\sum_{k=t+1}^T \gamma^{k-t-1} r_k$
  - policy update： $\theta_{t+1}=\theta_t+\alpha \nabla_\theta \ln \pi\left(a_t \mid s_t, \theta_t\right) q_t\left(s_t, a_t\right) \\\theta_k=\theta_t$

♚℡灬

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【强化学习的数学原理】第九课：梯度策略

是参数向量，原本是通过查表得形式得到策略，现在需要传播计算一次才能得到是多少。所对应的真实的action value，我们没法知道，所以我们进行近似。环境的信息是没法全部知道的，我们用随机的梯度替代。：是state value的加权平均。对一个做优化另一个也达到了极值。开始的一步立即奖励均值。能够用来平衡探索和利用。
复制链接

扫一扫