【RL】Value Function Approximation（值函数逼近）

本文链接：https://blog.csdn.net/qq_44733706/article/details/136194508

Lecture 8: Value Function Approximation

Algorithm for state value estimation

Objective function

令 $v_{\pi}(s)$ 和 $\hat{v}(s, w)$ 是真实state value和近似函数。

算法的目标是找到一个最优的 $w$ ，使得 $\hat{v}(s, w)$ 能够最好地逼近每个 $s$ 的 $v_{\pi}(s)$ 。

这是一个policy evaluation问题。

为了找到最优的 $w$ ，需要两个步骤：

第一步是定义目标函数
第二步是推导优化目标函数的算法

目标函数为：
$J(w)=\mathbb{E}[(v_\pi(S)-\hat{v}(S,w))^2].$
目标是寻找可以最小化 $j (w)$ 的 $w$ 。

期望是关于随机变量 $\in \mathbf{S}$ 的。关于 $S$ 的概率分布有以下几种方式：

第一种方式是使用均匀分布（uniform distribution）

即通过将每个state的概率设置为 $1/|\mathbf{S}|$ ，将所有state态视为同等重要。

在这种情况下，目标函数变为：
$J(w)=\mathbb{E}[(v_\pi(S)-\hat{v}(S,w))^2]=\frac1{|\mathcal{S}|}\sum_{s\in\mathcal{S}}(v_\pi(s)-\hat{v}(s,w))^2.$
缺点：每个state可能并不同样重要。例如，某些state可能很少被policy访问。因此，这种方法没有考虑给定policy下Markov过程的真实动态。

第一种方式是使用稳态分布（stationary distribution）

稳态分布是经常使用的一个重要概念。简而言之，它描述了Markov过程的长期行为。

令 $\{d_\pi(s)\}_{s\in S}$ 表示policy $\pi$ 下马尔可夫过程的平稳分布。根据定义， $d_{\pi}(s)\geq0$ 且 $\sum_{s\in\mathcal{S}}d_\pi(s)=1$ 。

目标函数可以重写为:
$J(w)=\mathbb{E}[(v_\pi(S)-\hat{v}(S,w))^2]=\sum_{s\in\mathcal{S}}d_\pi(s)(v_\pi(s)-\hat{v}(s,w))^2.$
该函数是加权平方误差。

由于更频繁访问的state具有更高的 $d_{\pi}(s)$ 值，因此它们在目标函数中的权重也高于那些很少访问的state。

Example：

令 $n_{\pi}(s)$ 表示在由 $\pi$ 生成的很长的episode中 $s$ 被访问的次数。

那么， $d_{\pi}(s)$ 可以近似为：
$d_\pi(s)\approx\frac{n_\pi(s)}{\sum_{s^{\prime}\in\mathcal{S}}n_\pi(s^{\prime})}$
在这里插入图片描述

收敛值是可以预测的，因为它们是 $d_{\pi}$ 的条目：
$d_\pi^T=d_\pi^TP_\pi$
对于这个例子，有 $P_{\pi}$ 作为：
$\left.P_\pi=\left[\begin{array}{cccc}0.3&0.1&0.6&0\\0.1&0.3&0&0.6\\0.1&0&0.3&0.6\\0&0.1&0.1&0.8\end{array}\right.\right]$
可以计算出1的特征值的左特征向量为：
$d_\pi=\begin{bmatrix}0.0345,0.1084,0.1330,0.7241\end{bmatrix}^T$

Optimization algorithms

当有了目标函数后，下一步就是优化它。

为了最小化目标函数 $J (w)$ ，可以使用梯度下降算法：
$w_{k+1}=w_k-\alpha_k\nabla_wJ(w_k)$
真实梯度为：
$\begin{aligned} \nabla_wJ(w)& =\nabla_w\mathbb{E}[(v_\pi(S)-\hat{v}(S,w))^2] \\ &=\mathbb{E}[\nabla_w(v_\pi(S)-\hat{v}(S,w))^2] \\ &=2\mathbb{E}[(v_\pi(S)-\hat{v}(S,w))(-\nabla_w\hat{v}(S,w))] \\ &=-2\mathbb{E}[(v_\pi(S)-\hat{v}(S,w))\nabla_w\hat{v}(S,w)] \end{aligned}$
真实梯度涉及期望的计算。

可以使用随机梯度来代替真实梯度：
$w_{t+1}=w_t+\alpha_t(v_\pi(s_t)-\hat{v}(s_t,w_t))\nabla_w\hat{v}(s_t,w_t),$
其中 $s_t$ 是 $S$ 的样本。这里， $2\alpha_k$ 被合并到 $\alpha_k$

该算法无法实现，因为它需要真实的state value $v_{\pi}$ ，而 $v_{\pi}$ 是待估计的未知数。

为了保证算法的可行性，可以用近似值替换 $v_{\pi}(s_t)$ 。

特定来说：

一、使用函数逼近的Monte Carlo learning

令 $g_t$ 为该episode中从 $s_t$ 开始的discounted return。然后， $g_t$ 可以用来近似 $v_{\pi}(s_t)$ 。算法变为：
$w_{t+1}=w_t+\alpha_t(g_t-\hat{v}(s_t,w_t))\nabla_w\hat{v}(s_t,w_t).$
二、函数逼近的TD learning
根据TD learning的理念， $r_{t+1}+\gamma\hat{v}(s_{t+1},w_t)$ 可以被视为 $v_{\pi}(s_t)$ 的近似。那么算法就变成了：
$w_{t+1}=w_t+\alpha_t\left[r_{t+1}+\gamma\hat{v}(s_{t+1},w_t)-\hat{v}(s_t,w_t)\right]\nabla_w\hat{v}(s_t,w_t).$
在这里插入图片描述

它只能估计给定policy的state value。

Selection of function approximators

如何选择函数 $\hat{v}(s,w)$ ？

第一种方法是以前广泛使用的，使用线性函数：
$\hat{v}(s,w)=\phi^T(s)w$
这里， $\phi (s$ )是特征向量，可以是多项式基、傅立叶基等。

第二种是现在广泛使用的以神经网络作为非线性函数逼近器。

神经网络的输入是state，输出是 $\hat{v}(s,w)$ ，网络参数是 $w$ 。

在 $\hat{v}(s,w)=\phi^T(s)w$ 的线性情况下，有：
$\nabla_w\hat{v}(s,w)=\phi(s).$
将梯度代入TD算法：
$w_{t+1}=w_t+\alpha_t\left[r_{t+1}+\gamma\hat{v}(s_{t+1},w_t)-\hat{v}(s_t,w_t)\right]\nabla_w\hat{v}(s_t,w_t)$
可得：
$w_{t+1}=w_t+\alpha_t\big[r_{t+1}+\gamma\phi^T(s_{t+1})w_t-\phi^T(s_t)w_t\big]\phi(s_t)$
这是线性函数逼近的TD learning算法。简称为 TD-Linear。

线性函数近似的缺点：很难选择合适的特征向量。

线性函数近似的优点：

TD 算法在线性情况下的理论特性比在非线性情况下更容易理解。
线性函数逼近仍然很强大，因为表格表示只是线性函数逼近的一个特例。

表格表示是线性函数近似的特例。

首先，考虑state $s$ 的特殊特征向量：
$\phi(s)=e_s\in\mathbb{R}^{|\mathcal{S}|},$
其中 $e_s$ 是一个向量，第 $s$ 个条目为 1，其他条目为 0。

在这种情况下，
$\hat{v}(s,w)=e_s^Tw=w(s),$
其中 $w (s)$ 是 $w$ 的第 $s$ 个条目。

TD 线性算法是:
$w_{t+1}=w_t+\alpha_t\big[r_{t+1}+\gamma\phi^T(s_{t+1})w_t-\phi^T(s_t)w_t\big]\phi(s_t),$
当 $\phi (s_t) = e_s$ 时，上述算法变为：
$w_{t+1}=w_t+\alpha_t\left(r_{t+1}+\gamma w_t(s_{t+1})-w_t(s_t)\right)e_{s_t}.$
这是一个向量方程，仅更新 $w_t$ 的第 $t$ 个条目。

将 $e^T_{s_t}$ 等式两边相乘得到：
$w_{t+1}(s_t)=w_t(s_t)+\alpha_t\left(r_{t+1}+\gamma w_t(s_{t+1})-w_t(s_t)\right),$
这正是表格TD算法。

Illustrative examples

给定一个policy：对于任何 $s$ 、 $a$ ， $\pi(a|s) = 0.2$

目标是估计该policy的state value（policy evaluation问题）。

总共有 25 个state value。接下来将展示如何使用少于 25 个参数来近似这些state value。

设置： $r_{\mathrm{forbidden}}=r_{\mathrm{boundary}}=-1,r_{\mathrm{target}}=1$ , $\gamma=0.9.$

在这里插入图片描述

Ground truth：

真实状态值和 3D 可视化：

在这里插入图片描述

Experience 样本:

按照给定的policy生成 500 个episode。
每episode有 500 步，从遵循均匀分布的随机选择的state-action对开始。

为了进行比较，tabular TD算法（简称TD-Table）给出的结果：

在这里插入图片描述

接下来展示 TD-Linear 算法的结果：

特征向量选择：
$\left.\phi(s)=\left[\begin{array}{c}1\\x\\y\end{array}\right.\right]\in\mathbb{R}^3.$
在这种情况下，近似state value为：
$\left.\hat{v}(s,w)=\phi^T(s)w=[1,x,y]\left[\begin{array}{c}w_1\\w_2\\w_3\end{array}\right.\right]=w_1+w_2x+w_3y.$
值得注意的是， $\phi (s)$ 也可以定义为 $\phi (s) = [x, y, 1]^T$ ，其中元素的顺序并不重要。

TD-Linear 算法的结果：

在这里插入图片描述

趋势是对的，但由于逼近能力有限，存在误差。

为了增强逼近能力，可以使用高阶特征向量，从而使用更多参数。

例如，可以考虑：
$\phi(s)=[1,x,y,x^2,y^2,xy]^T\in\mathbb{R}^6.$
在这种情况下：
$\hat{v}(s,w)=\phi^T(s)w=w_1+w_2x+w_3y+w_4x^2+w_5y^2+w_6xy$
其对应于二次曲面。

可以进一步增加特征向量的维度：
$\begin{aligned}\phi(s)=[1,x,y,x^2,y^2,xy,x^3,y^3,x^2y,xy^2]^T\in\mathbb{R}^{10}.\end{aligned}$
具有高阶特征向量的 TD-Linear 算法的结果：

在这里插入图片描述

上图对应： $\phi(s) \in \mathbb{R}^6$

在这里插入图片描述

上图对应： $\phi(s) \in \mathbb{R}^10$

Summary of the story

至此，完成了价值函数逼近TD learning的过程。

这个过程从目标函数开始：
$J(w)=\mathbb{E}[(v_\pi(S)-\hat{v}(S,w))^2].$
目标函数表明这是一个policy evaluation问题。
梯度下降算法为：
$w_{t+1}=w_t+\alpha_t(v_\pi(s_t)-\hat{v}(s_t,w_t))\nabla_w\hat{v}(s_t,w_t),$
将算法中未知的真值函数替换为近似值，得到算法：
$w_{t+1}=w_t+\alpha_t\left[r_{t+1}+\gamma\hat{v}(s_{t+1},w_t)-\hat{v}(s_t,w_t)\right]\nabla_w\hat{v}(s_t,w_t).$

Theoretical analysis

算法：
$w_{t+1}=w_t+\alpha_t\left[r_{t+1}+\gamma\hat{v}(s_{t+1},w_t)-\hat{v}(s_t,w_t)\right]\nabla_w\hat{v}(s_t,w_t)$
不最小化以下目标函数：
$J(w)=\mathbb{E}[(v_\pi(S)-\hat{v}(S,w))^2]$
不同的目标函数：

目标函数1：真值误差
$J_E(w)=\mathbb{E}[(v_\pi(S)-\hat{v}(S,w))^2]=\|\hat{v}(w)-v_\pi\|_D^2$
目标函数2：Bellman误差
$J_{BE}(w)=\|\hat{v}(w)-(r_\pi+\gamma P_\pi\hat{v}(w))\|_D^2\doteq\|\hat{v}(w)-T_\pi(\hat{v}(w))\|_D^2,$
其中， $T_\pi(x)\doteq r_\pi+\gamma P_\pi x$ 。
目标函数 3：预计Bellman误差（Projected Bellman error）
$\begin{aligned}J_{PBE}(w)&=\|\hat{v}(w)-MT_\pi(\hat{v}(w))\|_D^2,\end{aligned}$
其中 $M$ 是投影矩阵。

TD-Linear算法最大限度地减少了Projected Bellman error。

Sarsa with function approximation

到目前为止，只考虑了state value估计的问题。
$\hat{v}\approx v_\pi$
为了寻找最佳policy，需要估计action values。

价值函数近似的 Sarsa 算法为：
$w_{t+1}=w_t+\alpha_t\left[r_{t+1}+\gamma\hat{q}(s_{t+1},a_{t+1},w_t)-\hat{q}(s_t,a_t,w_t)\right]\nabla_w\hat{q}(s_t,a_t,w_t).$
为了寻找最优policy，可以将policy evaluation和policy improvement结合起来。

在这里插入图片描述

Q-learning with function approximation

与 Sarsa 类似，tabular Q-learning也可以扩展到价值函数逼近的情况。

q-value更新规则为：
$w_{t+1}=w_t+\alpha_t\Big[r_{t+1}+\gamma\max_{a\in\mathcal{A}(s_{t+1})}\hat{q}(s_{t+1},a,w_t)-\hat{q}(s_t,a_t,w_t)\Big]\nabla_w\hat{q}(s_t,a_t,w_t),$
与 Sarsa 相同，只是将 $\hat{q}(s_{t+1},a_{t+1},w_t)$ 替换为 $\max_{a\in\mathcal{A}(s_{t+1})}\hat{q}(s_{t+1},a,w_t)$ 。

在这里插入图片描述

Deep Q-learning

Deep Q-learning 或 deep Q-network (DQN)：

将深度神经网络引入强化学习的最早、最成功的算法之一。

神经网络的作用是成为非线性函数逼近器。

与以下算法不同：
$w_{t+1}=w_t+\alpha_t\Big[r_{t+1}+\gamma\max_{a\in\mathcal{A}(s_{t+1})}\hat{q}(s_{t+1},a,w_t)-\hat{q}(s_t,a_t,w_t)\Big]\nabla_w\hat{q}(s_t,a_t,w_t)$
因为训练网络的方式。

Deep Q-learning旨在最小化目标函数/损失函数：
$J(w)=\mathbb{E}\left[\left(R+\gamma\max_{a\in\mathcal{A}(S^{\prime})}\hat{q}(S^{\prime},a,w)-\hat{q}(S,A,w)\right)^2\right],$
其中 $(S, A, R, S^{'})$ 是随机变量。

这实际上是贝尔曼最优误差（Bellman optimality error）：
$q(s,a)=\mathbb{E}\left[R_{t+1}+\gamma\max_{a\in\mathcal{A}(S_{t+1})}\left.q(S_{t+1},a)\right|S_t=s,A_t=a\right],\quad\forall s,a$
$R+\gamma\max_{a\in\mathcal{A}(S^{\prime})}\hat{q}(S^{\prime},a,w)-\hat{q}(S,A,w)$ 的值在期望意义上应该为0。

使用梯度下降最小化目标函数。

在目标函数中：
$J(w)=\mathbb{E}\left[\left(R+\gamma\max_{a\in\mathcal{A}(S^{\prime})}\hat{q}(S^{\prime},a,w)-\hat{q}(S,A,w)\right)^2\right],$
参数 $w$ 不仅出现在 $\hat{q}(S, A, w)$ 中，而且还出现在：
$y\doteq R+\gamma\max_{a\in\mathcal{A}(S^{\prime})}\hat{q}(S^{\prime},a,w)$
为了简单起见，可以假设在计算梯度时， $y$ 中的 $w$ 是固定的（至少在一段时间内）。

为此，可以引入两个网络。

一个是代表 $\hat{q}(s, a, w)$ 的主网络
另一个是目标网络 $\hat{q}(s, a, w_T)$ 。

在这种情况下，目标函数退化为：
$J=\mathbb{E}\left[\left(R+\gamma\max_{a\in\mathcal{A}(S^{\prime})}{\hat{q}(S^{\prime},a,w_T)-\hat{q}(S,A,w)}\right)^2\right],$
其中 $w_T$ 是目标网络参数。

当 $w_T$ 固定时， $J$ 的梯度可以很容易地得到：
$\nabla_wJ=\mathbb{E}\left[\left(R+\gamma\max_{a\in\mathcal{A}(S^{\prime})}{\hat{q}(S^{\prime},a,w_T)-\hat{q}(S,A,w)}\right)\nabla_w\hat{q}(S,A,w)\right].$

deep Q-learning 的基本思想是利用梯度下降算法来最小化目标函数。
然而，这样的优化过程发展了一些值得特别关注的重要技术。

第一个技术：

两个网络，一个主网络和一个目标网络。

实施细节：

让 $w$ 和 $w_T$ 分别表示主网络和目标网络的参数。它们最初设置为相同。
在每次迭代中，从重放缓冲区（replay buffer）中抽取一小批样本 ${(s, a, r, s' )\}$ 。
网络的输入包括state $s$ 和action a。目标输出为 $\begin{aligned}y_T\doteq r+\gamma\max_{a\in\mathcal{A}(s')}\hat{q}(s',a,w_T)\end{aligned}$ 。然后，直接最小化小批量 ${(s, a, y_T )\}$ 上的 TD 误差或称为损失函数 $(y_T − \hat{q}(s, a, w))^2$ 。

第二个技术：

Experience replay

当收集了一些经验样本后，不会按照收集的顺序使用这些样本。

相反，我们将它们存储在一个集合中，称为重播缓冲区（replay buffer） $\mathcal{B}\doteq\{(s,a,r,s^{\prime})\}$

每次训练神经网络时，都可以从replay buffer中抽取 mini-batch 随机样本。

样本的抽取，或者称为experience replay，应该遵循均匀分布。

Why is experience replay necessary in deep Q-learning? Why does the replay must follow a uniform distribution?

答案在目标函数中：
$J(w)=\mathbb{E}\left[\left(R+\gamma\max_{a\in\mathcal{A}(S^{\prime})}\hat{q}(S^{\prime},a,w)-\hat{q}(S,A,w)\right)^2\right],$
$(S,A)\sim d$ ： $(S, A)$ 是一个索引并被视为单个随机变量。