Reinfocement Learning 学习笔记Part Ⅲ

最新推荐文章于 2024-05-18 22:06:58 发布

西电卢本伟

最新推荐文章于 2024-05-18 22:06:58 发布

阅读量192

点赞数 1

分类专栏：强化学习文章标签：机器学习

本文链接：https://blog.csdn.net/lbwnbnbnbnbnbnbn/article/details/135111532

版权

强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

八、值函数近似（Value function approximation）

前面介绍的所有方法都是基于表格的，即所有的 $\ value$ 或者 $\ value$ 都是放在 $Q - t ab l e$ 里的。此方法存在维度灾难的问题，当问题的 $\ space$ 非常大或者 $s t a t e$ 是连续的时候，基于表格的方法就没办法解决问题。如何把离散的点转换为连续的呢，可以考虑用曲线拟合。

假设用一条直线来拟合 $\ value$ ：

$\hat v$ 是 $v_{\pi}$ 的估计值， $w$ 是参数，所要存储的就是这个 $w$ ， $\phi(s)$ 是特征向量

曲线拟合有两个好处：一是可以解决维度的问题，可以用较小的存储来得到所有状态的估计；二是可以根据曲线来更新那些在一个 $e p i so d e$ 中没有被访问到的状态的 $\ value$ 。

但也存在问题：如果曲线拟合的不完美，估计值与真实值偏差就会较大。

我们的目的就是找到最优的 $w$ ，让 $\hat v(s,w)$ 能够最好的估计 $\ value$ 。

8.1 目标函数介绍

目标函数如下：

现在问题转换为找到最优的 $w$ ，使得 $J (w)$ 最小。式中 $S$ 是随机变量，即可能是状态空间中任意一个状态。因为是 $m o d e l - f ree$ 的，所以并不知道状态的概率分布，那应该怎么计算这个期望呢？有两种方法定义这个概率分布。

$\ way:uniform \ distribution$

平均分布，每个状态的概率都是相同的，很容易将期望转化为求和取均值的情况

但是在实际问题中，状态转移的概率往往是不同的。

$\ way:stationary \ distribution$

$d_{\pi}(s)$ 是指由给定的策略 $\pi$ ，在经过很长的 $e p i so d e$ 达到平稳状态之后后，得到的在每个 $s$ 的概率，可以看作是权重。

一个例子解释 $d_{\pi}(s)$ ：

图中给定了策略，用 $n_{\pi}(s)$ 来表示在一个非常长的 $e p i so d e$ 中访问到 $s$ 的次数，那么 $d_{\pi}(s)$ 就可以表示为：

可以看到当 $e p i so d e$ 很长时，访问到 $s$ 的概率会趋于稳定：

在这里插入图片描述

8.2 优化目标函数与函数选择

采用梯度下降的算法来优化上述目标函数：

可得真实的梯度为：

式中有期望不好求，用随机梯度代替真实梯度，即使用随机梯度下降求解：

在这里插入图片描述

式中 $s_t$ 是 $S$ 的采样，且把 $2\alpha_k$ 合并为 $\alpha_k$

但是 $v_{\pi}(s_t)$ 是不知道的，因为它是真实的 $\ value$ ，可以用两种方法代替。

$\ Carlo \ learning \ with \ function\ approximation$

用 $g_t$ 表示一个从状态 $s_t$ 出发经过一个 $e p i so d e$ 得到的 $\ return$ 来近似 $v_{\pi}(s_t)$
$\ learning \ with \ function\ approximation$

还有一个问题，式中还需要求 $\hat v$ 的梯度，求梯度需要只要曲线的表达式，在实际问题中应该如何选取表达式呢？

使用线性函数

可以算出梯度 $\nabla_w \hat v(s,w)=\phi(s)$

带入到上述 $\ learning \ with \ function\ approximation$ 中，得到 $T D - L in e a r$
使用神经网络

神经网络的输入为 $s$ ，输出为 $\hat v(s,w)$ ，网络参数为 $w$

8.3 Sarsa & Q-Learning和值函数近似相结合

$\ \& \ Q-Learning$ 都是求 $\ value$

$\ with \ function \ approximation$

同上， $\hat q$ 的选取要么是线性函数，要么是神经网络

在这里插入图片描述

伪代码如下：

$Q-Learning\ with \ function \ approximation$

在这里插入图片描述

伪代码如下：

8.4 Deep Q-network

$\ Q-network$ 的目的是最小化一个目标函数（或者说是损失函数）：

如何最小化 $J (w)$ ，当然是梯度下降了。但是式子中有两处关于 $w$ 的表达式，导致梯度不好计算。

为此， $\ Q-network$ 引入了两个网络：

$\ network$ ：代表 $\hat q(s,a,w)$
$\ network$ ：代表 $\hat q(s,a,w_T)$

目标函数转换为：

优化过程如下：先假设 $w_T$ 是固定的（保持不变，不用更新），对 $\ network$ 中的 $w$ 进行更新来优化 $J$ ，经过一段时间之后将 $w$ 的赋值给 $w_T$ ，最终 $w$ 与 $w_T$ 都能收敛到最优值。

由于假设 $w_T$ 是固定的，可计算出梯度：

总体算法流程：根据给定策略采样 ${(s,a,r,s')\}$ ，神经网络的输入为 $s, a$ ，输出 $\hat q$ 并计算 $y_T=r+\gamma \max_{a \in A(s')}\hat q(s',a,w_T)$ ，更新网络参数 $w$ 来最小化损失函数 $(y_T-\hat q(s,a,w))^2$ ，一段时间后用更新的 $w$ 来更新 $w_T$ 。

除了使用两个网络， $\ Q-network$ 还使用了经验回放。

什么是经验回放？

我们并不需要将收集到的 $e x p er i e n ce$ 按序输入神经网络，而是将这些采样放到 $\ buffer$ 中，训练时按批次取（服从均匀分布，即取得概率相同）
为什么需要经验回放？

由于 $a g e n t$ 与环境交互得到的训练样本并不是独立同分布的，利用 $\ buffer$ 将过去的 $e x p er i e n ce$ 和目前的 $e x p er i e n ce$ 混合，降低了数据相关性。并且经验回放还使得样本可重用，从而提高学习效率。

伪代码：

九、策略函数近似（梯度）方法（Policy function approximation / gradient）

9.1 策略梯度的基本思想

值函数近似的思想解决了维度灾难的问题，同样策略函数近似也是将基于表格的策略转换为用函数（通常用神经网络）进行表示： $\pi(a|s,\theta)$

基本思想：

定义一个目标函数来表示最优策略 $J(\theta)$
使用梯度上升最大化目标 $\theta_{t+1}=\theta_t+\alpha \nabla_{\theta}J(\theta_t)$

与值函数近似面临的问题一样：

如何选取目标函数
如何计算目标函数的梯度

9.2 目标函数的选取

$\ value$

$\overset{-}{v}_{\pi}$ 表示 $\ value$ 的加权平均， $d (s)$ 表示权重（或者说是状态的概率分布）。该式也可以表示为： $\overset{-}{v}_{\pi}=\mathbb{E}[v_{\pi}(S)]$

矩阵形式表示为：

$\overset{-}{r}_{\pi}$ 另外一种表示：

如何选择概率分布 $d$ ？
- $d$ 与策略 $\pi$ 无关
  - $d$ 被写作 $d_0$ ， $\overset{-}{v}_{\pi}$ 被写作 $\overset{-}{v}^0_{\pi}$
  - $d_0$ 要么取均匀分布，每个状态的概率都是 $\frac{1}{n}$ ；那么只关心某一个状态，比如是 $s_0$ ，使得 $d_0(s_0)=1$ ， $d_0(s \neq s_0)=0$
- $d$ 与策略 $\pi$ 有关
  - $d$ 被写作 $d_{\pi}(s)$ ，是策略 $\pi$ 下的 $\ distribution$
  - 在8.1节已经介绍过，简而言之就是用一个策略不断与环境交互生成 $e p i so d e$ ，就可以预测 $a g e n t$ 在某个状态的概率是多少。访问次数多的状态对应的 $d_{\pi}(s)$ 值大。
$\ reward$

式中 $r_{\pi}(s)$ 表示从状态 $s$ 出发，采取不同动作所能获得的即刻奖励，这个是在状态 $s$ 获得的即刻奖励， $d_{\pi}(s)$ 是策略 $\pi$ 下的 $\ distribution$

式中 $r (s, a)$ 也是服从概率分布的（ $\ probability$ ）表示为，这个是在动作 $a$ 获得的即刻奖励：

$\overset{-}{r}_{\pi}$ 另外一种表示：

关于目标函数的补充说明：

$\overset{-}{v}_{\pi}$ 和 $\overset{-}{r}_{\pi}$ 都是关于策略 $\pi$ 的函数
$\pi$ 是关于 $\theta$ 的参数，所以 $\overset{-}{v}_{\pi}$ 和 $\overset{-}{r}_{\pi}$ 也是关于 $\theta$ 的函数
不同的 $\theta$ 对应不同的 $\overset{-}{v}_{\pi}$ 和 $\overset{-}{r}_{\pi}$ ，因此需要找到最优的 $\theta$ 取最大化 $\overset{-}{v}_{\pi}$ 和 $\overset{-}{r}_{\pi}$
$\overset{-}{r}_{\pi}=(1-\gamma)\overset{-}{v}_{\pi}$

9.3 目标函数的梯度计算

在这里插入图片描述

式中目标函数 $J(\theta)$ 可以为 $\overset{-}{v}_{\pi}$ 、 $\overset{-}{r}_{\pi}$ 和 $\overset{-}{v}^0_{\pi}$ ， $\eta$ 为状态 $s$ 的权重。式中的 $=$ 也分三种情况：严格 $=$ ， $\approx$ 和比例等于。具体地：

在这里插入图片描述

可以把上式中求和转化为期望：

在这里插入图片描述

然后使用随机梯度思想，用采样来代替分布：

观察式子发现为了使 $l n$ 有意义， $\pi(a|s,\theta)$ 必须大于0，所以要使用归一化（神经网络的输出加上一个 $so f t ma x$ 层），即让所有动作选择的概率统一到 $(0, 1)$ 这个区间。因为对于所有的动作 $\pi(a|s,\theta)>0$ ，所以这个策略是 $s t oc ha s t i c$ 的并且是有探索性的。且此式不能计算有无穷多个 $a c t i o n$ 的情况。

9.4 梯度上升和REINFORCE

用梯度上升算法求解 $\theta$ ：

式中 $q_{\pi}$ 是 $\ value$ 是未知的，用 $q_t$ 代替。 $q_t$ 可以用蒙特卡洛估计的方法来得到，也可以通过 $T D$ 算法来得到，同8.2节介绍的一样。

在这里插入图片描述

如果 $q_t$ 是通过蒙特卡洛估计得到的，那么此策略梯度的算法被称作 $RE I NFORCE$ ，它是 $o n - p o l i cy$ 的，伪代码如下：

十、演员-评论家方法（Actor-Critic Methods）

$a c t or$ 对应 $\ update$
$cr i t i c$ 对应 $\ evaluation \ / \ value \ estimation$

10.1 最简单的 Actor-Critic（QAC）

在第九节中介绍的 $RE I NFORCE$ 中， $q_t$ 这个估计值是根据蒙特卡洛估计得到的。如果 $q_t$ 是通过 $T D$ 算法得到的，就将其称之为 $A c t or - C r i t i c$

说明：

将值函数近似（求得 $q$ ）与策略梯度（更新 $\theta$ ）相结合
$cr i t i c$ 对应 $\ function \ approximation$
$a c t or$ 对应梯度上升，用于更新策略
是 $o n - p o l i cy$ 的

10.2 Advantage Actor-Critic

$\ Actor-Critic$ 是 $A c t or - C r i t i c$ 的一个推广，引入了一个偏置量 $ba se l in e$ 来减小估计的方差。

通常认为最好的 $ba se l in e$ ： $b(s)=v_{\pi}(s)$

式中 $\delta_{\pi}(S,A)$ 被称为 $\ function$ ，它描述了在某一状态下 $\ value$ 和 $\ value$ 的差值：

在这里插入图片描述

通过采样得到：

在这里插入图片描述

$\delta_t$ 也可以用 $\ Error$ 表示：

$\ Actor-Critic$ 伪代码如下：

10.3 重要性采样

考虑有随机变量 $\in \chi=\{-1,+1\}$ ，且满足概率分布 $p_0$ ，有
$p_0(X=+1)=0.5,\quad p_0(X=-1)=0.5$
则可以求得期望 $\mathbb{E}_{X \sim p_0}[X]=(+1)*0.5+(-1)*0.5=0$

如果 $X$ 满足概率分布 $p_1$ ，有：
$p_0(X=+1)=0.8,\quad p_0(X=-1)=0.2$
则可以求得期望 $\mathbb{E}_{X \sim p_1}[X]=(+1)*0.8+(-1)*0.2=0.6 \neq \mathbb{E}_{X \sim p_0}[X]$

不同概率分布下求得的期望当然是不同的，有什么方法可以使得在概率分布为 $p_1$ 的情况话求得 $p_0$ 的期望吗？

可以使用重要性采样的方式：

在这里插入图片描述

这样就可以用 $\mathbb{E}_{X \sim p_1}[f(X)]$ 来估计 $\mathbb{E}_{X \sim p_0}[X]$

如何求 $\mathbb{E}_{X \sim p_1}[f(X)]$ ？

故得：

在这里插入图片描述

式中 $\frac{p_0(x_i)}{p_1(x_i)}$ 为重要性权重

总的来说：

10.4 off-policy 的策略梯度

前几节所述的策略梯度和 AC 算法都是 $o n - p o l i cy$ 的。现介绍 $o ff - p o l i cy$ 的策略梯度。

假设 $\beta$ 是 $\ policy$ 用于生成 $\ samples$
我们的目标是更新 $\ policy \ \pi$ ，通过最大化这个目标函数：

式中 $\theta$ 是关于 $\ policy \ \pi$ 的参数， $d_{\beta}(s)$ 是在策略 $\beta$ 下的 $\ distribution$ ，相当于权重。
目标函数的梯度为：

式中 $\frac{\pi(A|S,\theta)}{\beta(A|S)}$ 实际上就是重要性采样， $\pi(A|S,\theta)$ 对应 $p_0$ ， $\beta(A|S)$ 对应 $p_1$
然后就是用梯度上升找到最优的 $\theta$ ，同样是采用随机梯度用采样代替期望：

式中是加了 $ba se l in e$ 的情况，用来减少估计的方法。

同 $\ Actor-Critic$ 一样，可以用 $\delta_t$ 来描述在某一状态下 $\ value$ 和 $\ value$ 的差值：

进而：