【强化学习的数学原理】第六课：随即近似与随机梯度下降

本文链接：https://blog.csdn.net/qq_44044341/article/details/134081941

【例子】

问题：如何计算均值 $\bar{x}$

回答：

第一种方法：
$\mathbb{E}[X] \approx \bar{x}:=\frac{1}{N} \sum_{i=1}^N x_i$
问题：需要等，将所有数据收集到一起后再求平均
第二种方法：增量式与迭代式的方法

$w_{k+1}和$ $w_k$ 分别表示前 $k + 1$ 个求平均和前 $k$ 个求平均
$\begin{aligned} & w_{k+1}=\frac{1}{k} \sum_{i=1}^k x_i, \quad k=1,2, \ldots \\ & w_k=\frac{1}{k-1} \sum_{i=1}^{k-1} x_i, \quad k=2,3, \ldots \end{aligned}$
我们发现前 $k + 1$ 个求平均和前 $k$ 个求平均是有关系的：
$\begin{aligned} w_{k+1}=\frac{1}{k} \sum_{i=1}^k x_i & =\frac{1}{k}\left(\sum_{i=1}^{k-1} x_i+x_k\right) =\frac{1}{k}\left((k-1) w_k+x_k\right)=w_k-\frac{1}{k}\left(w_k-x_k\right) .\\ & w_{k+1}=w_k-\frac{1}{k}\left(w_k-x_k\right) . \end{aligned}$
例子验证：发现可以表征，我们就得到了一个求平均数的迭代式的算法
$\begin{aligned} w_1 & =x_1, \\ w_2 & =w_1-\frac{1}{1}\left(w_1-x_1\right)=x_1, \\ w_3 & =w_2-\frac{1}{2}\left(w_2-x_2\right)=x_1-\frac{1}{2}\left(x_1-x_2\right)=\frac{1}{2}\left(x_1+x_2\right), \\ w_4 & =w_3-\frac{1}{3}\left(w_3-x_3\right)=\frac{1}{3}\left(x_1+x_2+x_3\right), \\ \vdots & \\ w_{k+1} & =\frac{1}{k} \sum_{i=1}^k x_i . \end{aligned}$

【Robbins-Monro算法（RM算法）】

Stochastic approximation(SA 随机近似)：

代表了一大类随机迭代的算法，涉及到对随机变量的采用，主要用于方程求解和优化问题
它不需要方程或目标函数的表达式

Robbins-Monro算法（RM算法）

属于Stochastic approximation领域
随机梯度下降方法式该方法的一种情况

求解的问题：
$g (w) = 0$

很多问题可以用这个来进行表征，比如优化问题 $g(w)=\nabla_w J(w)=0$
加入我们要求 $g (w) = c$ ，我们可以将其转变为 $g (w) - c = 0$ 这样的问题

计算过程：

第一种情况： $g$ 的表达式知道
第二种情况： $g$ 的表达式不知道（类似于神经网络）

✨RM算法：

$w_{k+1}=w_k-a_k \tilde{g}\left(w_k, \eta_k\right), \quad k=1,2,3, \ldots$

$w_k$ ：是对 $w^*$ 第 $k$ 次的观测
$\tilde{g}\left(w_k, \eta_k\right)=g\left(w_k\right)+\eta_k$ 是第 $k$ 次的带噪音观察
$a_k$ ：是常数

这个里面中 $g (w)$ 是个黑盒，输入 $\left\{w_k\right\}$ ，输出 $\left\{\tilde{g}\left(w_k, \eta_k\right)\right\}$

✨RM算法例子：

$g(w)=\tanh (w-1)=0$

在这里插入图片描述

参数： $w_1=3, a_k=1 / k, \eta_k \equiv 0$

RM算法： $w_{k+1}=w_k-a_k g\left(w_s\right)$

仿真结果：

在这里插入图片描述

我们发现 $w_{k+1}$ 更接近于 $w^*$ 相比于 $w_k$ ，因为 $w_{k+1}=w_k-a_k g\left(w_k\right)<w_k$ ，所以 $w_{k+1}$ 比 $w_k$ 小更接近 $w *$

【随机梯度下降】

✨解决的优化问题：

$\min _w \quad J(w)=\mathbb{E}[f(w, X)]$

$w$ ：是最优的参数
$X$ ：随机变量

✨解决方法1：gradient descent (GD) 梯度下降

$w_{k+1}=w_k-\alpha_k \nabla_w \mathbb{E}\left[f\left(w_k, X\right)\right]=w_k-\alpha_k \mathbb{E}\left[\nabla_w f\left(w_k, X\right)\right]$

$\alpha_k$ ：步长表示快还是慢下降
$\mathbb{E}\left[\nabla_w f\left(w_k, X\right)\right]==J(w)$

问题：对期望求梯度如何计算：

有模型对模型求梯度
没有模型，用数据求也就是方法2

✨解决方法2：batch gradient descent (BGD)梯度下降

$\begin{aligned} & \mathbb{E}\left[\nabla_w f\left(w_k, X\right)\right] \approx \frac{1}{n} \sum_{i=1}^n \nabla_w f\left(w_k, x_i\right) \\ & w_{k+1}=w_k-\alpha_k \frac{1}{n} \sum_{i=1}^n \nabla_w f\left(w_k, x_i\right) . \end{aligned}$

问题：在每一次更新采样k的时候都要采集n次

✨解决方法3：stochastic gradient descent (SGD)梯度下降

$w_{k+1}=w_k-\alpha_k \nabla_w f\left(w_k, x_k\right),$

相比GD：替换真梯度 $\mathbb{E}\left[\nabla_w f\left(w_k, X\right)\right]$ 为随机梯度 $\nabla_w f\left(w_k, x_k\right)$
相比BGD：将n=1

✨例子：

$\min _w \quad J(w)=\mathbb{E}[f(w, X)]=\mathbb{E}\left[\frac{1}{2}\|w-X\|^2\right],$

其中： $X)=\|w-X\|^2 / 2 \quad \nabla_w f(w, X)=w-X$

【问题1】：最优解是否是 $w^*=\mathbb{E}[X]$ ？
$\begin{gathered} \nabla_w J(w)=0 \Rightarrow E[\underbrace{\nabla_w f(w, X)}_{w-x}]=0 \Rightarrow E[w-x]=0 \Rightarrow w=E[x] \end{gathered}$
【问题2】：写出解决次问题的GD算法
$\begin{aligned} w_{k+1} & =w_k-\alpha_k \nabla_w J\left(w_k\right) \\ & =w_k-\alpha_k \mathbb{E}\left[\nabla_w f\left(w_k, X\right)\right] \\ & =w_k-\alpha_k \mathbb{E}\left[w_k-X\right] \end{aligned}$
【问题3】：写出解决此问题的SGD算法
$w_{k+1}=w_k-\alpha_k \nabla_w f\left(w_k, x_k\right)=w_k-\alpha_k\left(w_k-x_k\right)$

✨SGD算法的收敛性：

$\begin{gathered} w_{k+1}=w_k-\alpha_k \mathbb{E}\left[\nabla_w f\left(w_k, X\right)\right] \\ \Downarrow \\ w_{k+1}=w_k-\alpha_k \nabla_w f\left(w_k, x_k\right) \end{gathered}$

从随机梯度来的，由于模型不知道所以通过随机采样来近似E，这个采样叫随机梯度，前面的叫真实梯度
$\nabla_w f\left(w_k, x_k\right)=\mathbb{E}\left[\nabla_w f(w, X)\right]+\underbrace{\nabla_w f\left(w_k, x_k\right)-\mathbb{E}\left[\nabla_w f(w, X)\right]}_\eta$
由于是用随机梯度来近似真实梯度所以不准确的存在误差 $\eta$

问题：由于 $\nabla_w f\left(w_k, x_k\right) \neq \mathbb{E}\left[\nabla_w f(w, X)\right]$ ，所以使用SGD是否当 $\rightarrow \infty$ 时 $w_k \rightarrow w^*$ ?

回答：由于SGD是特殊的RM算法，那么前面RM算法的收敛性就可以应用到SGD的收敛性当中

✨SGD算法收敛行为：

问题：随机梯度是个随机的，逼近会不会不准确，SGD收敛是慢还是随机的

回答：
$\delta_k \doteq \frac{\left|\nabla_w f\left(w_k, x_k\right)-\mathbb{E}\left[\nabla_w f\left(w_k, X\right)\right]\right|}{\left|\mathbb{E}\left[\nabla_w f\left(w_k, X\right)\right]\right|}$

分子为差的绝对值

由于 $\mathbb{E}\left[\nabla_w f\left(w^*, X\right)\right]=0$ ，我们将上面的式子进行修正为：
$\delta_k=\frac{\left|\nabla_w f\left(w_k, x_k\right)-\mathbb{E}\left[\nabla_w f\left(w_k, X\right)\right]\right|}{\left|\mathbb{E}\left[\nabla_w f\left(w_k, X\right)\right]-\mathbb{E}\left[\nabla_w f\left(w^*, X\right)\right]\right|}=\frac{\left|\nabla_w f\left(w_k, x_k\right)-\mathbb{E}\left[\nabla_w f\left(w_k, X\right)\right]\right|}{\left|\mathbb{E}\left[\nabla_w^2 f\left(\tilde{w}_k, X\right)\left(w_k-w^*\right)\right]\right|}$
其中左边的式子将上面的带了进去，右边的式子对左边的式子使用中值定理进行化简，我们假设其中 $\nabla_w^2 f \geq c>0$ ，对于所有的 $w, X$
$\begin{aligned} \left|\mathbb{E}\left[\nabla_w^2 f\left(\tilde{w}_k, X\right)\left(w_k-w^*\right)\right]\right| & =\left|\mathbb{E}\left[\nabla_w^2 f\left(\tilde{w}_k, X\right)\right]\left(w_k-w^*\right)\right| \\ & =\left|\mathbb{E}\left[\nabla_w^2 f\left(\tilde{w}_k, X\right)\right]\right|\left|\left(w_k-w^*\right)\right| \geq c\left|w_k-w^*\right| \end{aligned}$
将其分母进行带入得到：
$\delta_k \leq \frac{\left|\nabla_w f\left(w_k, x_k\right)-\mathbb{E}\left[\nabla_w f\left(w_k, X\right)\right]\right|}{c\left|w_k-w^*\right|}$
我们再来分析这个式子：
$\delta_k \leq \frac{|\overbrace{\nabla_w f\left(w_k, x_k\right)}^{\text {stochastic gradient }}-\overbrace{\mathbb{E}\left[\nabla_w f\left(w_k, X\right)\right]}^{\text {true gradient }}|}{\underbrace{c\left|w_k-w^*\right|}_{\text {distance to the optimal solution }}} .$

分子是它的绝对误差
分母是 $w_k$ 距离 $w^*$ 的距离
当 $w_k$ 距离 $w^*$ 非常远的时候，SGD的行为和普通的梯度下降类似，

✨SGD收敛例子：

假设我们有20x20的范围，其最终收敛效果如下所示：

在这里插入图片描述

【BGD，MBGD，SGD】

目标函数： $J(w)=\mathbb{E}[f(w, X)]$ 随机变量： $\left\{x_i\right\}_{i=1}^n$
$\begin{aligned} & w_{k+1}=w_k-\alpha_k \frac{1}{n} \sum_{i=1}^n \nabla_w f\left(w_k, x_i\right),&(BGD) \\ & w_{k+1}=w_k-\alpha_k \frac{1}{m} \sum_{j \in \mathcal{I}_k} \nabla_w f\left(w_k, x_j\right), &(MBGD)\\ & w_{k+1}=w_k-\alpha_k \nabla_w f\left(w_k, x_k\right) .&(SGD) \end{aligned}$

BGD：用到所有的采用在其基础上求平均
MBGD：用到一组上随机抽取的采样求平均
SGD：在其实随机采样一个求随机梯度

✨BGD，MBGD，SGD比较

MBGD囊括了BGD和SGD，当比较小的时候接近SGD，当比较大的时候接近BGD

如果m=1，MBGD是SGD

如果m=n，MBGD不等于BGD，MBGD是在所以采样时随机抽取可能抽不到

【总结】

Mean estimation：使用一组数 $\left\{x_k\right\}$ 来求平均 $\mathbb{E}[X]$
$w_{k+1}=w_k-\frac{1}{k}\left(w_k-x_k\right) .$
RM 迭代：用含有噪音的测量进行估计 $\left\{\tilde{g}\left(w_k, \eta_k\right)_1\right\}$ ， $g (w) = 0$
$w_{k+1}=w_k-a_k \tilde{g}\left(w_k, \eta_k\right)$
SGD迭代：利用梯度采样 $\left\{\nabla_w f\left(w_k, x_k\right)\right\}$ 求解 $J(w)=\mathbb{E}[f(w, X)]$
$w_{k+1}=w_k-\alpha_k \nabla_w f\left(w_k, x_k\right)$