【强化学习的数学原理】课程笔记--4（随机近似与随机梯度下降，时序差分方法）

muyuu

已于 2024-07-20 18:02:09 修改

阅读量613

点赞数 9

分类专栏：深度学习文章标签：机器学习人工智能强化学习

于 2024-07-20 17:55:57 首次发布

本文链接：https://blog.csdn.net/muyuu/article/details/140252957

版权

深度学习专栏收录该内容

17 篇文章 2 订阅

订阅专栏

随机近似与随机梯度下降

这个部分主要是为了下一章 时序差分方法 做铺垫，其内容也适用于机器学习等方向。

Mean estimation

上一节中我们已经讨论过，在 model-free 的情况下，为了求解
$q_{\pi_k}(s,a) = E[G_t | S_t = s, A_t =a]$
我们需要利用 大数定律 的结论，通过大量的采样 $g^{(i)}_{\pi_k}(s,a), i = 1,2,3...$ ，来估计 $q_{\pi_k}(s,a)$ ：
$q_{\pi_k}(s,a) = \frac{1}{n} \sum_{i=1}^n g^{(i)}_{\pi_k}(s,a)$

我们将上述问题简记为：
$\approx \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$

上述式子在实际中有一个效率的问题：需要等到所有的样本 $x_i$ 全都采集完毕才能计算。而上述式子有一个等价的迭代式子：
$w_{k+1} = w_k - \frac{1}{k} (w_k -x_k)$
其中 $w_k = \frac{1}{k-1} \sum_{i=1}^{k-1} x_i$ 。证明也很容易：
$w_{k+1} = \frac{1}{k} \sum_{i=1}^{k} x_i = \frac{1}{k} (\sum_{i=1}^{k-1} x_i + x_k) = \frac{1}{k} ((k-1)w_k + x_k) = w_k - \frac{1}{k} (w_k -x_k)$

作为上式的延展，我们提出一个更广泛使用的迭代式：
$w_{k+1} = w_k - \alpha_k (w_k -x_k)$

在下面的 Robbins-Monro 算法 中，我们会展示：在满足一定条件时，上式依然满足 $\lim_{k \rightarrow \infin} w_k = E[X]$

Robbins-Monro 算法

Robbins-Monro 算法提出了以下框架：

要求解 $g (w) = 0$
如果不知道 $g$ 的具体形式，但可以拿到足够多的采样 $g(w_k), k = 1,2,3...$ ，那么可以用迭代式：
$w_{k+1} = w_k - a_k (g(w_k) + \eta_k), \quad a_k > 0$
来求解，其中随机变量 $\eta \in \mathbb{R}$ 是观测误差。当以下条件满足时，可以保证 $w_k$ 收敛到 $w^*$ （ $w^*$ 满足 $g(w^*) = 0$ ）：
$\quad$

$c_1 \leq \nabla_w g(w) \leq c_2，\forall w$
$\quad$
$\sum_{k=1}^{\infin} a_k = \infin$ 并且 $\sum_{k=1}^{\infin} a_k^2 < \infin$
$\quad$
$E[\eta_k|\mathcal{H}_k] = 0$ 并且 $E[\eta_k^2|\mathcal{H}_k] < \infin$ ，其中 $\mathcal{H}_k = \{w_k, w_{k-1}, ...\}$

下面我们依次来直观理解一下每个条件：

$c_1 \leq \nabla_w g(w) \leq c_2，\forall w$ ：前半部分 $c_1 \leq \nabla_w g(w)$ 是要求 $g (w)$ 是单调递增函数，而由于常用的场景是求解 $min_w J(w)$ 时，转化为求解 $\nabla_w J(w) = 0$ ，因此 $c_1 \leq \nabla_w^2 J(w) \leq c_2$ 即要求 $J (w)$ 是 凸函数。而后半部分 $\nabla_w g(w) \leq c_2$ 则限制了 $g (w)$ 的增长率不会发散，否则会影响 $w_k$ 的收敛性。
$\quad$
$\quad$
$\sum_{k=1}^{\infin} a_k = \infin$ 并且 $\sum_{k=1}^{\infin} a_k^2 < \infin$ ：这其实是希望 $a_k$ 是一个趋于 0，但又不会过快趋于 0 的序列。要求 $a_k$ 趋于 0 很好理解，因为 $w_{k+1} - w_k = a_k (g(w_k) + \eta_k)$ 因此 $a_k$ 趋于 0 才能保证 $w_k$ 能收敛。那 $a_k$ 不会过快趋于 0 有什么作用呢？由于 $w_{k+1} - w_k = - a_k (g(w_k) + \eta_k)$ ，因此 $w_1 - w_{\infin} = \sum_{k=1}^{\infin} a_k (g(w_k) + \eta_k)$ ，如果 $a_k$ 很快就趋于 0 了，由于 $\nabla_w g(w) \leq c_2$ ，因此 $\sum_{k=1}^{\infin} a_k (g(w_k) + \eta_k)$ 有上界，即 $|w_1 - w_{\infin}| \leq b$ 由此带来的问题是 $w_1$ 不能任意选择，因为若选的 $w_1$ 离 $w^*$ 太远，那么 $|w_1 - w_{\infin}| \leq b$ 就不成立了，因而是否能收敛到 $w^*$ 也无法保证（NOTE： $a_k = \frac{1}{k}$ 就是一个满足条件的例子）
$\quad$
$\quad$
$E[\eta_k|\mathcal{H}_k] = 0$ 并且 $E[\eta_k^2|\mathcal{H}_k] < \infin$ ：这个条件比较弱，甚至不要求 $\eta$ 满足高斯分布，只要 $\{\eta_k\}$ 独立同分布，且满足 $E[\eta_k] = 0， E[\eta_k^2] < \infin$ 即可。本质是希望 $\eta$ 中不要包含有效信息，有效的信息应该都包含在 $g (w)$ 中。

抛开上述条件，Robbins-Monro 算法的想法也很简单，就是：对于一个单调递增函数，随便取一个点 $w_1$ ，如果 $g(w_1) + \eta_1 < 0$ ，说明 $w^*$ 在 $w_1$ 的右边，那么下一步应该往右走，而 $w_{2} = w_1 - a_1 (g(w_1) + \eta_1)$
由于 $g(w_1) + \eta_1 < 0$ ，因此 $a_1 (g(w_1) + \eta_1) > 0$ ，即方向向右。同理，如果 $g(w_1) + \eta_1 > 0$ ，则下一步会往左走一点

图示：

用 Robbins-Monro 算法解释 Mean estimation

为了能将 Mean estimation 囊括到 Robbins-Monro 的框架下，我们需要定义： $g (w) = w - E [X]$
这样求解 $g(w^*) = 0$ 就等价于求解 $w^* = E[X]$ 。由此 Robbins-Monro 中的迭代式 $w_{k+1} = w_k - a_k (g(w_k) + \eta_k)$
其中 $g(w_k) = w_k - E[X]$ ， $\eta_k$ 是样本 $x_k$ 的观测误差 $E[X] - x_k$ （易证 $E[\eta_k] = 0$ 且 $E[\eta_k^2] < \infin$ ），再取 $a_k = \frac{1}{k}$ ，因此有
$\begin{aligned} w_{k+1} &= w_k - a_k (g(w_k) + \eta_k)\\ &= w_k - \frac{1}{k} (w_k - E[X] + E[X] - x_k)\\ &= w_k - \frac{1}{k} (w_k - x_k) \end{aligned}$
即 Mean estimation

用 Robbins-Monro 算法解释 Batch Gradient descent

机器学习中常用的 Gradient descent 算法描述如下：
$min_w J(w) = E[f(w,X)]$
其中 $f$ 即损失函数， $w$ 是模型中的待优化参数。求解的迭代式是：
$\begin{aligned} w_{k+1} =& w_k - \alpha_k \nabla_w J(w)\\ =& w_k - \alpha_k E[\nabla_w f(w_k,X)] \\ =& w_k - \alpha_k \cdot \frac{1}{n} \sum_{i=1}^n \nabla_w f(w_k,x_i) \end{aligned}$

其中 $x_i, f(w_k,x_i))$ 即一对样本。由于每次更新 $w$ 都需要将所有的样本都计算到，因此也叫 Batch Gradient descent。但跟 Mean estimation 类似，Batch Gradient descent 要求所有样本采样完毕才能计算，效率比较低。因此提出了每次只使用一个样本来更新参数的算法：Stochastic Gradient Descent （SGD）
$w_{k+1} = w_k - \alpha_k \nabla_w f(w_k,x_k)$

为了将 SGD 囊括到Robbins-Monro 的框架下，只需要定义 $\nabla_w J(w)$
那么求解 $g(w^*) = \nabla_w J(w^*) = 0$ 就等价于求解 $min_w J(w)$ （当 $J (w)$ 是凸函数时），可以推导：
$\begin{aligned} w_{k+1} =& w_k - a_k (g(w_k) + \eta_k)\\ =& w_k - \alpha_k (E[\nabla_w f(w_k,X)] + (\nabla_w f(w_k,x_k) - E[\nabla_w f(w_k,X)])) \\ =& w_k - \alpha_k \cdot \nabla_w f(w_k,x_k) \end{aligned}$

即 SGD。上式中 $\eta_k = \nabla_w f(w_k,x_k) - E[\nabla_w f(w_k,X)]$ ，同样易证 $E[\eta_k] = 0$ 且 $E[\eta_k^2] < \infin$ 。这里同时也说明了 SGD的收敛性，跟随 Robbins-Monro 框架的收敛性而成立

用 SGD 解释 Mean estimation

注意到如果想将 Mean estimation 套入 SGD 的框架，需要找到一个 $f (w, X)$ 使得满足：
$\nabla_w f(w,X) = w - X$
因为这样就有：
$w_{k+1} = w_k - \alpha_k \cdot \nabla_w f(w_k,x_k) = w_k - \alpha_k (w_k - x_k)$
上式即 Mean estimation 的迭代式。因此我们可以构造：
$\min_w J(w) = E[\frac{1}{2}||w-X||^2]$

这个从直观也比较好理解，即求解 $w = E [X]$ 等价于求解 $\min_w E[\frac{1}{2}||w-X||^2]$

SGD 的一个有趣的性质

尽管上面我们说明了 SGD 的收敛性，但它的收敛速度呢？是否也足够快呢？这里有一个有趣的结论：

当 $w_k$ 距离 $w^*$ 较远时，SGD 向 $w^*$ 靠近的速度与一般的 GD 差不多，但是当 $w_k$ 离 $w^*$ 比较近时，其收敛会呈现一定的 随机性

定义 $\delta_k = \frac{|\nabla_wf(w_k,x_k) - E[\nabla_w f(w_k,X)]|}{|E[\nabla_w f(w_k,X)]|}$
来描述 SGD 和 GD 算法的相对误差， $\delta_k$ 越小，表明 SGD 与 GD 的收敛速度越接近。

由于 $g(w^*) = \nabla_w J(w^*) = E[\nabla_w f(w^*,X)] = 0$ ，因此
$\delta_k = \frac{|\nabla_wf(w_k,x_k) - E[\nabla_w f(w_k,X)]|}{|E[\nabla_w f(w_k,X)] - E[\nabla_w f(w^*,X)]|} = \frac{|\nabla_wf(w_k,x_k) - E[\nabla_w f(w_k,X)]|}{E[\nabla^2_w f(\hat{w_k},X)(w_k - w^*)]}$

其中总存在 $\hat{w_k} \in (w_k,w^*)$ ，使得 $E[\nabla_w f(w_k,X)] - E[\nabla_w f(w^*,X)] = E[\nabla^2_w f(\hat{w_k},X)(w_k - w^*)]$ 是 中值定理 的结论。

由于 $w_k - w^*$ 不是随机变量，且由 Robbins-Monro 框架的收敛性条件， $\leq \nabla^2_w f$ ，可得：
$|E[\nabla^2_w f(\hat{w_k},X)(w_k - w^*)]| = E[\nabla^2_w f(\hat{w_k},X)]||w_k - w^*| \geq c |w_k - w^*|$

$\Rightarrow \delta_k \leq \frac{|\nabla_wf(w_k,x_k) - E[\nabla_w f(w_k,X)]|}{c |w_k - w^*|}$

因此我们可以发现：

当 $w_k - w^*|$ 比较大时， $\delta_k$ 的上界比较小，即此时 SGD 与 GD 的收敛速度比较接近
当 $w_k - w^*|$ 比较小时， $\delta_k$ 的上界比较大，即此时 SGD 的收敛速度不太能保证，有较强的 随机性

时序差分方法

时序差分方法也是一种 model-free 方法，类似蒙特卡洛方法，我们有一个足够长的 trajectory $s_0, r_1, s_1, ..., s_t, r_{t+1}, s_{t+1},...)$ 来作为样本集。回忆求解贝尔曼最优公式时的策略迭代过程

$\pi_k \rightarrow (v_{\pi_k}^{(0)} \rightarrow v_{\pi_k}^{(1)} \rightarrow ... \rightarrow v_{\pi_k}^{(\infin)} = v_{\pi_k}) \rightarrow 求解 q_{\pi_k}(s,a) \rightarrow \pi_{k+1}= \begin{cases} 1, \quad a = a^*(s)\\ 0, \quad a \neq a^*(s) \end{cases} \rightarrow ...$

其中 $(v_{\pi_k}^{(0)} \rightarrow v_{\pi_k}^{(1)} \rightarrow ... \rightarrow v_{\pi_k}^{(\infin)} = v_{\pi_k})$ 即是通过迭代求解一个求解一个贝尔曼公式：
$\begin{aligned} v_{\pi_k}^{(1)} &= r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}^{(0)}\\ v_{\pi_k}^{(2)} &= r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}^{(1)}\\ & \dots \\ \text{贝尔曼公式} \quad \longleftarrow \quad v_{\pi_k}^{(\infin)} &= r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}^{(\infin)}\\ \end{aligned}$

但现在由于是 model-free 了，我们只能通过样本来求解 $v_{\pi_k}$ 。在第一节中， $v_{\pi_k}$ 的原始定义是在 Policy 为 ${\pi_k}$ ，从状态 s 出发时，所有可能的 trajectory 的 discounted return $G_t$ 的期望值： $v_{\pi}(s) = E[G_t|S_t=s] = E[R_{t+1} + \gamma G_{t+1}|S_t = s]$
又由于 $E[G_{t+1}|S_t = s] = v_{\pi}(S_{t+1})$

因此：
$v_{\pi}(s) = E[R_{t+1} + \gamma v_{\pi}(S_{t+1})|S_t = s]$

上式可以用 Robbins-Monro 框架来迭代求解：

记 $g(v_{\pi}(s_t)) = v_{\pi}(s_t) - E[R_{t+1} + \gamma v_{\pi}(S_{t+1})|S_t = s_t]$
目标是求解： $g(v_{\pi}(s_t)) = 0$

上式就是我们前面讨论的 Mean estimation，每来一个样本 $s_t, r_{t+1}, s_{t+1})$ ，其更新式为：
$v_{t+1}(s_t) = v_t(s_t) - \alpha_t(s_t) (v_t(s_t) - [r_{t+1} + \gamma v_t(s_{t+1})])$

其中 $\bar{v_t} = r_{t+1} + \gamma v_t(s_{t+1})$ 称为 TD target， $\delta_t = v_t(s_t) - \bar{v_t}$ 则称为 TD error。注意这里： $v_{t+1}(s) = v_t(s)， \text { if } s \neq s_t$
即，每学习一个样本， $v_{t+1}$ 相比 $v_t$ 只会更新当前样本涉及到的 state 的 state value（这是当然的）。

如前面 Robbins-Monro 所讨论的，迭代的目标是减小 TD error，由于 $g(v_{\pi}(s_t))$ 是单调递增函数：

当 $v_t(s_t) - \bar{v_t} < 0$ 时， $v_{t+1}(s_t)$ 往 $v_t(s_t)$ 右边移一点
当 $v_t(s_t) - \bar{v_t} > 0$ 时， $v_{t+1}(s_t)$ 往 $v_t(s_t)$ 左边移一点

从数学上来说，因为当 $v_t = v_{\pi}$ 时：
$\begin{align} E[\delta_t | S_t=s_t] &= E[v_{\pi}(S_t) - (R_{t+1} + \gamma v_{\pi}(S_{t+1})) | S_t=s_t] \\ &= v_{\pi}(s_t) - E[R_{t+1} + \gamma v_{\pi}(S_{t+1}) | S_t=s_t] \\ &= 0 \end{align}$

因此减小 TD error 即使得 $v_t$ 向 $v_{\pi}$ 靠近。

与蒙特卡洛算法的区别

首先最主要的区别：TD 算法摆脱了蒙特卡洛算法中需要等到所有的样本都采完，才能进行一轮更新。TD 算法中，每增加一个样本就可以进行一次 value state 更新
TD 算法由于每次只更新了一个样本，所以其开始的时候，是对 $R_{t+1} + \gamma G_{t+1}$ 的有偏估计，当学习的样本量足够多时，才逐渐变成无偏估计；而蒙特卡洛算法一条 trajectory 就采到足够多的样本，且一次迭代就全部使用，因此直接就是无偏估计
TD 算法估计的 state value，而蒙特卡洛方法是直接估计 action value

Sarsa 算法

上述 TD 算法只是求解了贝尔曼方程，但这不足以找到最优的 Policy，要找最优 Policy，需要知道所有 state 的 action value，回忆蒙特卡洛算法：

$\pi_k \rightarrow 从 (s,a) 出发，做n次实验，有n个结果 g_{\pi_k}^{(i)}(s,a) \rightarrow 估计 q_{\pi_k}(s,a) = \frac{1}{n}\sum_i g_{\pi_k}^{(i)}(s,a) \rightarrow \pi_{k+1}= \begin{cases} 1, \quad a = a_{\pi_k}(s)\\ 0, \quad a \neq a_{\pi_k}(s) \end{cases} \rightarrow ...$

这里我们也是想估计 $q_{\pi_k}(s,a)$ ，但类似 TD 算法的想法，Sarsa 算法也是来一个样本就学一点，而不是像蒙特卡洛算法一样等所有的样本都生成完了，再一起学。

第一节当中，我们推到过 action value 形式的贝尔曼公式，首先看常见的 state value 的贝尔曼公式：
$\begin{aligned} v_{\pi}(s) = \sum_{a} \pi(a|s) [\sum_{r} P(r|s,a)r + \gamma \sum_{s'} P(s'|s,a) v_{\pi}(s')], \quad \forall s \end{aligned}$
由于
$v_{\pi}(s) = \sum_a \pi(a|s) q_{\pi}(s,a)$
因此上式等价于
$\begin{aligned} q_{\pi}(s,a) &= \sum_{r} P(r|s,a)r + \gamma \sum_{s'} P(s'|s,a) v_{\pi}(s')\\ &= \sum_{r} P(r|s,a)r + \gamma \sum_{s'} P(s'|s,a) \sum_{a'} q_{\pi}(s',a') \pi(a'|s')\\ &= \sum_{r} P(r|s,a)r + \gamma \sum_{s'}\sum_{a'} q_{\pi}(s',a') P(s'|s,a) P(a'|s')\\ &= \sum_{r} P(r|s,a)r + \gamma \sum_{s'}\sum_{a'} q_{\pi}(s',a') P(s'|s,a) P(a'|s',s,a)\\ &= \sum_{r} P(r|s,a)r + \gamma \sum_{s'}\sum_{a'} q_{\pi}(s',a') P(s',a'|s,a)\\ &= E[R + \gamma q_{\pi}(S',A')|s,a] \end{aligned}$

因此 Sarsa 算法的 Robbins-Monro 框架为：

记 $g(q_{\pi}(s_t,a_t)) = q_{\pi}(s_t,a_t) - E[R_{t+1} + \gamma q_{\pi}(S_{t+1},A_{t+1})|S_t = s_t, A_t = a_t]$
目标是求解： $g(q_{\pi}(s_t,a_t)) = 0$
$\quad$
每来一个样本 ${s_t, a_t, r_{t+1}, s_{t+1}, a_{t+1}\}$ ，更新式为： $q_{t+1}(s_t,a_t) = q_t(s_t,a_t) - \alpha_t(s_t,a_t) [q_t(s_t,a_t) - (r_{t+1} + \gamma q_t(s_{t+1},a_{t+1}))]$
同样有： $q_{t+1}(s,a) = q_t(s,a), \qquad \forall (s,a) \neq (s_t,a_t)$

Sarsa 算法的完整实现为：

这里面有一点需要注意，我们每采到一个样本 $s_t, a_t, r_{t+1}, s_{t+1}, a_{t+1})$ ，就会立即更新 $q_{t+1}(s_t,a_t)$ 然后立马就更新 Policy $\pi_{t+1}$ ，并且由这个 Policy 来采下一个样本，这里采用 $\epsilon$ -greedy 方法来更新策略也是这个原因（即 Sarsa 是 on-policy 的，迭代中的策略同时也要用来生成下一步的样本）。

另外不难看出 Sarsa 找的仅仅是从某一个 state 出发，到 target state 的最优路线，而不是求所有 state 的最优路线。因此 Sarsa 往往会主要在 start state 和 target state 附近寻找，因为一般情况下，最优路线也不会绕路。但理论上来说，不把所有的 state 都“走”足够多次，是不能保证 Sarsa 找到的路径是 “全局最优” 的，有时也会出现只找到局部最优的情况。

一个例子

左边展示了 Sarsa 的结果，可以看出，它只是找到了从 start state 开始的一个最优路径，但是其他 state 的 policy 很多并不是最优的。右图显示了随着算法迭代，一个 episode 的长度和 reward，可以看到，随着迭代步数增加，episode 的长度减少，reward 增加，这些都说明，Policy 在不断变好。

Expected Sarsa 算法

Expected Sarsa 算法的迭代式与 Sarsa 非常接近：

$\begin{align} q_{t+1}(s_t,a_t) &= q_t(s_t,a_t) - \alpha_t(s_t,a_t) [q_t(s_t,a_t) - (r_{t+1} + \gamma E[q_t(s_{t+1},A)])]\\ q_{t+1}(s,a) &= q_t(s,a), \qquad \forall (s,a) \neq (s_t,a_t) \end{align}$

其中 $E[q_t(s_{t+1},A)] = \sum_{a} \pi_t(a|s_{t+1})q_t(s_{t+1},a) = v_t(s_{t+1})$

上述迭代式也是基于求解贝尔曼公式：

$\begin{align} q_{\pi}(s,a) &= E[R_{t+1} + \gamma E[q_{\pi}(S_{t+1},A_{t+1})|S_{t+1}] | S_t = s, A_t = a]\\ &= E[R_{t+1} + \gamma v_{\pi}(S_{t+1}) | S_t = s, A_t = a]\\ \end{align}$

上式等价于贝尔曼公式的原因是：
$\begin{align} v_{\pi}(s) &= E[R_{t+1} + \gamma v_{\pi}(S_{t+1})|S_t = s]\\ &= \sum_{a} \pi(a|s) E[R_{t+1} + \gamma v_{\pi}(S_{t+1})|S_t = s, A_t = a]\\ &= \sum_{a} \pi(a|s) q_{\pi}(s,a) \end{align}$

Expected Sarsa 跟 Sarsa 相比：

TD target 计算更复杂了
采样样本从 ${s_t, a_t, r_{t+1}, s_{t+1}, a_{t+1}\}$ 变成了 ${s_t, a_t, r_{t+1}, s_{t+1}\}$ ，estimation variance 变小了

n-step Sarsa 算法

n-step Sarsa 是 Sarsa 的另一个重要变体，回忆 action value 的原始定义： $q_{\pi}(s,a) = E[G_t | S_t = s, A_t = a]$
$G_t$ 可以分解成 $G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ...$
或者更细的拆分：
$\begin{aligned} \text{Sarsa} \leftarrow \quad G_t^{(1)} &= R_{t+1} + \gamma q_{\pi}(S_{t+1},A_{t+1})\\ G_t^{(2)} &= R_{t+1} + \gamma R_{t+2} + \gamma^2 q_{\pi}(S_{t+2},A_{t+2})\\ \dots\\ \text{n-step Sarsa} \leftarrow \quad G_t^{(n)} &= R_{t+1} + \gamma R_{t+2} + ... + \gamma^n q_{\pi}(S_{t+n},A_{t+n})\\ \dots\\ \text{蒙特卡洛算法} \leftarrow \quad G_t^{(\infin)} &= R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \gamma^3 R_{t+4} + ... \end{aligned}$

即 Sarsa 是每拿到一个样本就更新，蒙特卡洛算法是拿到所有样本再更新，而 n-step Sarsa 是拿到 n 个样本再更新

因此 n-step Sarsa 的效果也介于 Sarsa 和蒙特卡洛算法之间：

当 n 比较大时，更接近蒙特卡洛算法，此时其 bias 比较小，但 estimate variance 比较大
当 n 比较小时，更接近 Sarsa，此时其 bias 比较大，但 estimate variance 比较小

Q-learning 算法

Q-learning 跟上述 Sarsa 算法及其变种最主要的区别是：它是直接求的 optimal action value，这就意味着，它不需要像 Sarsa 一样，在每一步迭代后，专门再更新一下 Policy $\pi$ ，而是每次迭代直接就可得本次迭代后的最优的 Policy 了

直接给出 Q-learning 的迭代式：

$\begin{align} q_{t+1}(s_t,a_t) &= q_t(s_t,a_t) - \alpha_t(s_t,a_t) [q_t(s_t,a_t) - (r_{t+1} + \gamma \max_{a} q_t(s_{t+1},a))]\\ q_{t+1}(s,a) &= q_t(s,a), \qquad \forall (s,a) \neq (s_t,a_t) \end{align}$

Q-learning 的本质是 贝尔曼最优公式，这是因为：
$\begin{aligned} q(s,a) &= E[R_{t+1} + \gamma \max_{a} q(S_{t+1},a) |S_t = s, A_t=a ]\\ &= \sum_r P(r|s,a)r + \gamma \sum_{s'} P(s'|s,a) \max_{a} q(s',a)\\ \end{aligned}$

由于 贝尔曼最优公式 ： $v^*(s) = \max_a q(s,a)$ ，因此上式等价于
$\begin{aligned} v^*(s) &= \max_a [\sum_r P(r|s,a)r + \gamma \sum_{s'} P(s'|s,a) v^*(s')]\\ &= \max_{\pi} \sum_a \pi(a|s) [\sum_r P(r|s,a)r + \gamma \sum_{s'} P(s'|s,a) v^*(s')] \end{aligned}$

即为第二节中讨论的贝尔曼最优公式。

off-policy 和 on-policy

这是强化学习中一个比较基础而重要的概念。与深度学习不同，强化学习中其实有两种 Policy：

behavior policy：用于生成样本的 Policy
target policy：实际优化的 Policy
$\quad$

off-policy 和 on-policy 分别指：

off-policy：behavior policy 和 target policy 不同
on-policy：behavior policy 和 target policy 是同一 Policy（我们前面讨论的绝大部分算法都是这种，这也是这些算法要用 $\epsilon$ -greedy 而不是直接 greedy 算法更新策略的原因）

Q-learning 是目前为止的第一个 off-policy 算法，核心原因就是因为它求解的是贝尔曼最优公式，而其他算法求解的只是贝尔曼公式，对比 Q-learning 和 Sarsa 的迭代式
$\begin{aligned} \text{Q-learning : } q_{t+1}(s_t,a_t) &= q_t(s_t,a_t) - \alpha_t(s_t,a_t) [q_t(s_t,a_t) - (r_{t+1} + \gamma \max_{a} q_t(s_{t+1},a))]\\ \text{Sarsa : } q_{t+1}(s_t,a_t) &= q_t(s_t,a_t) - \alpha_t(s_t,a_t) [q_t(s_t,a_t) - (r_{t+1} + \gamma q_t(s_{t+1},a_{t+1}))] \end{aligned}$
Sarsa 的一个样本是 ${s_t, a_t, r_{t+1}, s_{t+1}, a_{t+1}\}$ ，其中 $s_t, a_t$ 是当前步给定的，而 $r_{t+1}, s_{t+1}$ 是仅依赖于 model： $P (R ∣ s, a)$ 和 $P (S^{'} ∣ s, a)$ ，与 Policy 无关。重点在于 $a_{t+1}$ ，一方面它依赖 behavior policy 生成，另一方面，它又用来更新了 target policy 的 action value，这就要求 $a_{t+1}$ 实际也是 target policy 在给定 $s_t, a_t$ 的选择（否则定义就不对了）

反观 Q-learning，由于它求解的是贝尔曼最优公式，所以它需要的样本为 ${s_t, a_t, r_{t+1}, s_{t+1}\}$ ，在给定 $s_t, a_t$ 时是不依赖 Policy 的，因此这里 target policy 可以和 behavior policy 解耦。因此它的 behavior policy 可以取得非常 exploration，这样可以使得取到的样本对每一个 state 都充分访问，也更有利于 target policy 的效果，以下是一个例子：

左边一列是 behavior policy，中间是生成的 episodes，右边一列是用于看 target policy 随着迭代的效果，可以看到，当 $\epsilon$ 比较大时， behavior policy 探索性较强，对各个 state 的访问比较充分，其找到的 target policy 效果也更好。

下面再看一个例子，这个例子里，直接将 $\epsilon$ 取为了1 （因此各个 action 概率均等）：

可以看到，此时 behavior policy 生成的 episodes 覆盖性更好，这使得 target policy 也能很快收敛

总结

下面我们给上述的各种时序差分算法一个综合的框架，并在这框架下看下每个算法的核心差别是什么：

$q_{t+1}(s_t,a_t) = q_t(s_t,a_t) - \alpha(s_t,a_t) [q_t(s_t,a_t) - \bar{q}_t]$

不难总结上述时序差分算法的迭代式都满足上述情况，具体来看：

Reference：
1.强化学习的数学原理

muyuu

关注

9
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
【强化学习的数学原理】课程笔记--4（随机近似与随机梯度下降，时序差分方法）

目录随机近似与随机梯度下降Mean estimationRobbins-Monro 算法用 Robbins-Monro 算法解释 Mean estimation用 Robbins-Monro 算法解释 Batch Gradient descent用 SGD 解释 Mean estimationSGD 的一个有趣的性质时序差分方法Sarsa 算法一个例子Expected Sarsa 算法n-step Sarsa 算法Q-learning 算法off-policy 和 on-policy总结随机近似与随机梯度
复制链接

扫一扫