最优化方法(学习笔记)-第十章无约束优化问题

最新推荐文章于 2024-09-03 13:55:38 发布

oliveQ

最新推荐文章于 2024-09-03 13:55:38 发布

阅读量1.5k

点赞数 3

分类专栏：最优化方法（学习笔记）文章标签：机器学习

本文链接：https://blog.csdn.net/u011412840/article/details/114656477

版权

最优化方法（学习笔记）专栏收录该内容

11 篇文章 34 订阅

订阅专栏

无约束优化问题

无约束优化问题属于限制比较少,适合通过技巧来简化求解过程

基本形式

$\min{f((x)},f(x):R^n\rightarrow R$

假设: $1.f(x)是凸函数\quad 2.f(x)二阶可导\quad 3.存在唯一的优化点x^*,有p^*=\inf_x{f(x)}$

注意: $x^* optimal\iff \nabla{f(x^*)}=0$

例子

二次规划问题: $\min{\frac12x^TPx+q^Tx+r},P\isin S_+^n,q\isin R^n,r\isin R$
对f(x)求导得到 $p x + q = 0$
- $P\isin S_{++}^n$ : 有唯一解
- $P\isin S_+^n$ : 无穷多组解
- $P\isin S_+^n,q含有非零元素使得等式不成立$ : 无解
几何规划问题: $domf=R^n, f(x)=\log{(\sum\limits_{i=1}^m{\exp{(a_i^Tx+b_i)}})}$

求导得到: $\nabla f=\frac{\sum{\exp{(a_i^Tx+b_i)}a_i}}{(\sum{\exp{(a_i^Tx+b_i)}})}$ , 这是一个超越方程,难以求解
类似的问题: $domf=\{x|a_i^Tx<b_i,\forall{i}\},f(x)=-\sum\limits_{i=1}^m{\log{(b_i-a_i^Tx)}}$

求导得到: $\nabla{f}=\sum\frac{a_i}{b_i-a_i^{T}x}$ , 依然非常难解

强凸性质

定义[最小的特征值也大于m]，以下的推导假设具有强凸性质
对f(y)做泰勒展开,设存在 $z\isin[x,y]$ 使得泰勒展开成立

$f(y)=f(x)+\nabla^T{f(x)}(y-x)+\frac12(y-x)^T\nabla^2{f(z)}(y-x)$

因为 ${\nabla^2{f(x)}\geq mI}$
所以 $f(y)\geq f(\tilde{y})= f(x)+\nabla{f(x)^T}(\tilde{y}-x)+\frac m2 ||\tilde{y}-x||_2^2$

若m=0,那么这个不等式是成立的
若 $m\neq0$ , 设 $\tilde y=x-\frac1m\nabla{f(x)}$

$f(y)\geq f(x)+\nabla{f(x)^T}(\tilde{y}-x)+\frac m2 ||\tilde{y}-x||_2^2\xlongequal{带入\tilde{y}的设定}f(x)-\frac1{2m}||\nabla{f(x)}||_2^2$

令y取最优点 $x^*$ , $p^*=f(x^*)\geq f(x)-\frac1{2m}||\nabla{f(x)}||_2^2$
$f(x)-p^*\leq \frac1{2m}||\nabla{f(x)}||_2^2$ , 由此可知,f(y)与最优点的距离与f(x)导数的模长有关
结论: $\frac1{2m}||\nabla{f(x)}||_2^2<\varepsilon\implies\nabla{f(x)}\leq \sqrt{2m\varepsilon} \implies||f(x)-p^*||_2<\varepsilon$ (限制了函数值与最小值的距离，可以方便控制步长大小)

条件数

设 $\lambda_{max},\lambda_{min}$ 分别是 $\nabla^2{f(x)}$ 中最大和最小特征值的绝对值

条件数定义: $K=\frac{\lambda_{max}}{\lambda_{min}}$

根据这个比值, 我们可以发现, 若条件数K越大（系统越不稳定）, 我们的特征值范围越广, 迭代到最优的步数就越多

注意: 二阶导矩阵 $\nabla^2{f(x)}$ 也称Hessian矩阵

下降方法

定义如下

$\triangle{x}$ 可以是搜索的方向,一般是函数下降的方向,所以满足 $\nabla{f(x)^T}\triangle{x}<0$
算法步骤
线性搜索Line search
- 精准线性搜索
- (向后追踪)backtracking线性搜索: 含有两个参数 $\alpha\isin(0,\frac12),\beta\isin(0,1)$
  - 终止条件的公式
  - 图像示意迭代情况
    
    由图可知: $\beta$ 控制迭代的步长（用来缩小 $t_0$ ,得到更小 $t$ ）, $\alpha$ 控制初始下降方向(虚线)的角度

梯度下降法GD

算法步骤

默认 $\triangle{x}=-\nabla{f(x)}$
在这里插入图片描述
通常需要提出停止条件 $||\nabla{f(x)}||_2<\varepsilon$

收敛分析

要求f(x)具有强凸性质, (设 $M是\lambda_{max},m是\lambda_{min}$ )

收敛结果是 $\frac1{2M}||\nabla{f(x)}||_2^2\leq f(x)-p^*\leq \frac1{2m}||\nabla{f(x)}||_2^2$

在这里插入图片描述
学习率c取决于最小特征值，初始点，线性搜索的类型。

精准线性搜索
$x^+=x-t\nabla{f(x)},f(x^+)\leq f(x)+t||\nabla{f(x)}||_2^2+\frac{Mt^2}2||\nabla{f(x)}||_2^2$

取t使得在右端二次函数的最小值点, $t=\frac1M,设e=f(x)-p^*$

$f(x^+)-p^*\leq f(x)-p^*-\frac{1}{2M}||\nabla{f(x)}||_2^2\leq\underbrace{(f(x)-p^*)(1-\frac mM)}_{因为f(x)-p^*\leq \frac1{2m}||\nabla{f(x)}||_2^2}$

设 $e^+=c*e,c=1-\frac m M(与条件数的倒数有关), 有e^{(k)}=f(x^{(k)})-p^*\leq e^{(0)}c^k<\varepsilon$

所以对上式最后一个小于号取对数,得到 $k\geq \frac{\log{(\frac{e^0}{\varepsilon}})}{-\log{C}}$

所以步数k与初始值 $e^0$ ,终止误差 $\varepsilon$ ,c都有关系

也印证了当条件数K变大时, $c=1-\frac 1 K$ 变大,分母变小,步数k变大
backtracking线性搜索

终止条件里，是将负梯度带入到 $\triangle{x}$ ，然后泰勒展开，再根据强凸性质求得的收敛结果（收敛分析下方的不等式）

推导得到不等式 $f(x-\tilde{t}\nabla{f})\leq f(x)-\tilde t||\nabla{f}||_2^2+\frac{M\tilde t^2}{2}||\nabla{f}||_2^2=f(x)-(\tilde t-\frac{M\tilde t^2}{2})||\nabla{f}||_2^2$

设 $0\leq \tilde t\leq\frac1M\implies-\tilde t+\frac{M\tilde t^2}{2}\leq -\frac{\tilde t}2\leq-\alpha\tilde t , \alpha\isin(0,\frac12)\implies f(x^+)\leq f(x)-\alpha\tilde t||\nabla{f}||_2^2$ （终止条件）

所以我们迭代( $t=\beta t$ )的目标就是使得 $\tilde t\leq\frac1M$ 成立（初始t=1）,证明结果如下

结论：backtracking线性搜索的条件终止于 $t=1(M\leq1)或t\geq\frac\beta M(M\geq1)\implies t=\min\{1,\frac\beta M\}$

虽说是线性收敛，但是 $\frac mM$ 的条件数会导致迭代很慢, 不适用于实际.

例子

二维的二次规划问题

若 $\gamma$ 偏离1很多,那么就收敛慢 , 如下图

迭代过程的证明
非二次规划问题
100维的问题

高维问题中，两种线性搜索的差距不大。

最速下降法SD

【类似梯度下降的收敛性】
【可能有多个最小值（多个方向）】

标准最速下降法

在这里插入图片描述

最速下降法

在这里插入图片描述

坐标变换的角度来理解最速下降法

在这里插入图片描述

欧式范数意义下：梯度下降GD就是（二范数的）最速下降法

$\nabla^T f(x)v=||\nabla^T f(x)||_2||v||_2 cos\theta\implies v=-\frac{\nabla^T f(x)}{||\nabla^T f(x)||_2}\sim-\nabla^Tf(x)$ (GD)

一般的梯度下降法不能很快找到最小值，所以一般要对x做变换（比如：图像上由椭圆变成圆）
L1范数的迭代结论：每步沿下降最快的坐标轴方向

【例子：Frobenius norm scaling】
quadratic norm的转换

设 $x=P^{-\frac12}\tilde x,P=\nabla^2f(x)$

计算得到 $\triangle\tilde x_{sd}=-P^{-\frac12}\nabla_x f(x),\nabla_{\tilde x}^2f(P^{-\frac12}\tilde x)=I, \nabla_{\tilde x} f(P^{-\frac12}\tilde x)=P^{-\frac12}\nabla_xf(x)$

所以转换后可以实现最速下降

由 $\tilde x^+=\tilde x+t\triangle\tilde x_{sd}\implies x^+=x-tP^{-1}\nabla_xf(x)\implies \triangle x_{sd}=-P^{-1}\nabla_xf(x)$

$\triangle\tilde x_{nsd}=-\frac{\nabla_{\tilde x} f(P^{-\frac12}\tilde x)}{||\nabla_{\tilde x} f(P^{-\frac12}\tilde x)||_2}=-(\nabla^Tf(x)P^{-1}\nabla f(x))^{-\frac12}(P^{-\frac12}\nabla_x f(x))=(\nabla^Tf(x)P^{-1}\nabla f(x))^{-\frac12}*\triangle\tilde x_{sd}$

$\implies\triangle x_{nsd}=(\nabla^Tf(x)P^{-1}\nabla f(x))^{-\frac12}*\triangle x_{sd}=-(\nabla^Tf(x)P^{-1}\nabla f(x))^{-\frac12}(P^{-1}\nabla f(x))$

引入quadratic范数的概念 $||x||_P=(x^TPx)^{\frac12}$ ，其对偶范数 $||x||_{P*}=(x^TP^{-1}x)^{\frac12}$

$\nabla^Tf(x)\triangle x_{nsd}=-(\nabla^Tf(x)P^{-1}\nabla f(x))^{-\frac12}(\nabla^Tf(x)P^{-1}\nabla f(x))=-||\nabla f(x)||_{P*}$ (正负号无影响)

所以 $\triangle x_{nsd}=\arg\min_v\{\nabla^Tf(x)v |\space||v||_P\leq1\}，\triangle x_{sd}=||\nabla f(x)||_{P*}*\triangle x_{nsd}$

举例

在这里插入图片描述

结果表明，范数以及变换矩阵P的选取对收敛速度有很强的影响。

算法步骤

在这里插入图片描述

收敛性分析

注：具有回溯线搜索的梯度方法的收敛性分析扩展到任意范数的最陡的下降方法

根据范数等价性，设 $\gamma,\tilde\gamma\isin[0,1], ||x||\geq \gamma||x||_2,||x||_*\geq\tilde\gamma||x||_2$ , 强凸性 $\nabla^2 f(x)\leq MI$

计算得 $f(x+t\triangle s_{sd})\leq f(x)-t||\nabla f(x)||_*^2+\frac{Mt^2}{2\gamma^2}||\nabla f(x)||_*^2\implies t^*=\frac{\gamma^2}{M}$ （二次函数的极值点）

将 $t^*$ 带入不等式中，得到 $f(x+t^*\triangle s_{sd})\leq f(x)-\frac{\gamma^2}{2M}||\nabla f(x)||_*^2$

基于向后追踪线性搜索的收敛性分析，设 $\frac{\gamma^2}{M}\geq t\geq\min\{1,\frac{\beta\gamma^2}{M}\}=\tilde t，\alpha<\frac12 , \beta<1$

根据最速下降法的条件： $\nabla f(x)^T\triangle{x_{sd}}=-||\nabla f(x)||_*^2$ , 且二范数的对偶还是二范数

$f(x^+)=f(x+t\triangle s_{sd})\leq f(x)-\alpha \tilde t||\nabla f(x)||_*^2\tilde\gamma^2=f(x)-\alpha \tilde t||\nabla f(x)||_2^2\tilde\gamma^2$

于是同时减去最小值 $p^*$ , 根据梯度下降法的收敛结果 $\frac1{2M}||\nabla{f(x)}||_2^2\leq f(x)-p^*\leq \frac1{2m}||\nabla{f(x)}||_2^2$ 来做放缩

设 $e_t=f(x)-p^* , 所以 e_{t+1}\leq e_t(1-2m\alpha \tilde t \tilde\gamma^2), \tilde t=\min\{1,\frac{\beta{\tilde\gamma}^2}{M}\}$

$c=(1-2m\alpha \tilde t \tilde\gamma^2)<1,e_{t+1}\leq ce_t, f(x^{(k)})-p^⋆\leq c^k(f(x^{(0)})-p^⋆)$

所以【函数点到最优点的距离】是线性收敛的。

补充说明

boyd书中的定义
- GD: $\triangle x_{sd}=-\nabla f(x), t->$ line search
- SD: $\triangle x_{sd}=\arg\min_v\{\nabla^Tf(x)v |\space||v||_.\leq1\}, t->$ line search
平常的定义
- GD: $\triangle x_{sd}=-\nabla f(x), t->$ fixed learning rate
- SD: $\triangle x_{sd}=-\nabla f(x),, t->$ exact line search

牛顿法

欧式范数
最速下降SD=梯度下降GD
quadratic范数
$||z||_P=(z^TPz)^{\frac 12}, P\isin S_{++}^n$

$\triangle x_{nsd}=\frac{1}{||\nabla f(x)||_{P*}}P^{-1}\nabla f(x)，\triangle x_{sd}=P^{-1}\nabla f(x)$

当 $P=\nabla^2f(x)$ （Hessian矩阵）时，这个就是牛顿法 Newton Method，是一种常用的但是非常耗计算量的方法。
当Hessian矩阵在经过相关的坐标变化后，出现最陡下降时（牛顿迭代中选择了很好的搜索方向），会产生很小的条件数，所以收敛快

基本定义

牛顿迭代：基于Hessian矩阵范数的最速下降法

$\triangle x_{nt}=-\nabla^2f(X)^{-1}\nabla f(x)\implies \nabla f(x)^T \triangle x_{nt}=-\nabla f(x)^T\nabla^2f(X)^{-1}\nabla f(x)=-||\nabla f(x)||_{\nabla^2f(x)*}^2$

在这里插入图片描述

直观理解

在这里插入图片描述
不断逼近函数的零点，而且若零点不唯一，则初始值会影响所求得的零点

特点

牛顿法有一些超越梯度下降法和最速下降法的优点

牛顿法的收敛速度一般更快，一旦达到二次收敛阶段，最多需要六次左右的迭代就可以产生高质量解
牛顿法具有仿射不变性（与坐标变换无关），对目标的条件数和坐标不敏感

设 $x = T y, f (x) = f (T y), T$ 是非奇异的 , 分别对 $f (T y)$ 求一阶导【 $\frac{df(Ty)}{dy}$ 】和二阶导

$\nabla_yf(Ty)=T^T\nabla_xf(x) , \nabla_y^2f(Ty)=T^T\nabla_xf(x)T$

$\triangle y_{nt}=-\nabla^2f(x)^{-1}\nabla f(x)=(T^T\nabla_xf(x)T)^{-1}T^T\nabla_xf(x)=T^{-1}(\nabla_x^2f(x))^{-1}\nabla_xf(x)=T^{-1}\triangle x_{nt}$

$\implies\triangle x_{nt}=T\triangle y_{nt} , x=Ty$ 【两种变换保持一致】
牛顿法的良好性能与算法参数无关
牛顿法可适用在不同规模的问题上，且10000维和10维问题的运算次数差别不大

牛顿方法的主要缺点是形成和存储Hessian矩阵的成本，以及计算牛顿步骤的成本（求解一组线性方程组）

算法步骤

在这里插入图片描述

收敛性分析

牛顿补偿Newton decrement

设 $\lambda(x)=(\nabla f(x)^T\triangle x_{nt})^{\frac12}=(\nabla f(x)^T\nabla^2f(x)^{-1}\nabla f(x))^{\frac12}=||\nabla f(x)||_{\nabla^2f(x)*}$ ，衡量 $x到x^*$ 的距离

1.设二阶逼近 $\hat{f(y)}，求f(x)-\inf_y\hat{f(y)}$

记 $\triangle x=\hat y-x, 有\hat{f(y)}=f(x)+\nabla f(x)^T\triangle x+\frac 12\triangle x^T\nabla^2f(x)\triangle x$

$f(x)-\inf_y\hat{f(y)}=f(x)-\inf\hat f(x+\triangle x), \hat f(y)的极小值在\triangle x=-(\nabla^2 f(x))^{-1}\nabla f(x)=\triangle x_{nt}$

$f(x)-\inf_y\hat{f(y)}=f(x)-\hat f(x+\triangle x_{nt})=\frac 12\lambda(x)^2$

所以 $\lambda$ 可以作为二阶逼近下的停止条件

2. $\lambda(x)=(\nabla f(x)^T\triangle x_{nt})^{\frac12}=(\nabla f(x)^T\nabla^2f(x)^{-1}\nabla f(x))^{\frac12}$ 将下降方向与二阶导数联系起来
收敛性证明&收敛条件

牛顿法迭代的复杂度计算

在这里插入图片描述

拟牛顿法

DFP
BFGS：模拟 $\nabla^2f(x)$

$s_k=x_{k+1}-x_k , y_k=\nabla f(x_{k+1})-\nabla f(x_k)$

$D_{k+1}=(I-\frac{s_ky_k^T}{y_k^Ts_k})D_k(I-\frac{y_ks_k^T}{y_k^Ts_k})+\frac{s_ks_k^T}{y_k^Ts_k}$

随机梯度下降SGD

损失函数和梯度下降法是一样的:
$L(\theta)=\sum_{x\isin{s}}{(f_{\theta}(x)-f^*(x))^2}$
迭代变量有所不同
- GD是 $\theta^{t+1}=\theta^{t}-\eta\nabla_{\theta}{L}$
- SGD是 $\theta^{t+1}=\theta^{t}-\eta\nabla_{\theta}{L'}$
  $L'=\sum_{x\isin{s'}}{(f_{\theta}(x)-f^*(x))^2},s'\subsetneq s$
针对大数据集，内存不足的情况，SGD可以实现较快求解
SGD具有随机性，存在噪音，使得损失函数存在震荡
GD不存在噪音，因为每一个样本都实现了求解

总结

无约束优化问题
- 基本形式
  
  假设 $1.f(x)是凸函数\quad 2.f(x)二阶可导\quad 3.存在唯一的优化点x^*,有p^*=\inf_x{f(x)}$
  
  $\min{f((x)},f(x):R^n\rightarrow R , x^* optimal\iff \nabla{f(x^*)}=0$
- 强凸性质：最小的特征值也大于m
  
  ${\nabla^2{f(x)}\geq mI}\implies f(x)-p^*\leq \frac1{2m}||\nabla{f(x)}||_2^2$ , 由此可知,f(x)与最优点 $x^*$ 的距离与f(x)导数的模长有关
  
  $\frac1{2m}||\nabla{f(x)}||_2^2<\varepsilon\implies\nabla{f(x)}\leq \sqrt{2m\varepsilon} \implies||f(x)-p^*||_2<\varepsilon$
  
  (限制了函数值与最小值的距离，可以方便控制步长大小)
- 条件数
  
  设 $\lambda_{max},\lambda_{min}$ 分别是 $\nabla^2{f(x)}$ 中最大和最小特征值的绝对值
  
  条件数定义: $K=\frac{\lambda_{max}}{\lambda_{min}}$ ，条件数K越大（系统越不稳定）, 迭代到最优的步数就越多
下降方法
$x^+=x+t\triangle x$ ， $\triangle{x}$ 可以是搜索的方向,一般是函数下降的方向,所以满足 $\nabla{f(x)^T}\triangle{x}<0$
- 线搜索
  - 精确线性搜索： $t=\arg\min_{t>0}f(x+t\triangle x)$
  - 向后追踪搜索: 含有两个参数 $\alpha\isin(0,\frac12),\beta\isin(0,1)$
- 梯度下降法GD
  - 算法步骤：默认 $\triangle{x}=-\nabla{f(x)}$ ，停止条件 $||\nabla{f(x)}||_2<\varepsilon$
  - 近似线性收敛
    根据强凸性质的收敛结果： $\frac1{2M}||\nabla{f(x)}||_2^2\leq f(x)-p^*\leq \frac1{2m}||\nabla{f(x)}||_2^2$
    - 精确线性收敛条件： $t=\frac1M$
    - backtracking线性收敛条件： $t=\min\{1,\frac\beta M\}，\alpha，\beta$ 的选取对收敛性有影响
    - 精确线搜索有时会提高梯度法的收敛性，但效果不大（可能不值得实施精确线搜索的麻烦）
    - 收敛速度在很大程度上取决于Hessian矩阵或子级集的条件数，收敛可能非常缓慢（条件数=100）
  - 特点
    梯度法的主要优点是简单，其主要缺点是其收敛速度严重依赖于Hessian或子级集的条件数
- 最速下降法SD
  $\triangle x_{nsd}=\arg\min_v\{\nabla^Tf(x)v |\space||v||_P\leq1\}，\triangle x_{sd}=||\nabla f(x)||_{P*}*\triangle x_{nsd}$
  - 方向选取（坐标变换）
    - 二范数：梯度下降GD
    - L1范数：沿下降最快的坐标轴方向
    - quadratic范数：变换矩阵P取Hessian矩阵时是牛顿法
  - 算法步骤
  - 近似线性收敛
    
    设 $e_t=f(x)-p^* , 有误差不等式 e_{t+1}\leq e_t(1-2m\alpha \tilde t \tilde\gamma^2), \tilde t=\min\{1,\frac{\beta{\tilde\gamma}^2}{M}\}$
    
    $c=(1-2m\alpha \tilde t \tilde\gamma^2)<1,e_{t+1}\leq ce_t, f(x^{(k)})-p^⋆\leq c^k(f(x^{(0)})-p^⋆)$
    
    也是近似线性收敛的，但是收敛性与范数以及变换矩阵P的选取高度相关
- 补充说明
  - Boyd书中的定义
    - GD: $\triangle x_{sd}=-\nabla f(x), t->$ line search
    - SD: $\triangle x_{sd}=\arg\min_v\{\nabla^Tf(x)v |\space||v||_.\leq1\}, t->$ line search
  - 平常的定义
    - GD: $\triangle x_{sd}=-\nabla f(x), t->$ fixed learning rate
    - SD: $\triangle x_{sd}=-\nabla f(x),, t->$ exact line search
牛顿法
$\triangle x_{nt}=-\nabla^2f(X)^{-1}\nabla f(x)\implies \nabla f(x)^T \triangle x_{nt}=-\nabla f(x)^T\nabla^2f(X)^{-1}\nabla f(x)=-||\nabla f(x)||_{\nabla^2f(x)*}^2$
- 定义：最速下降法的一个特例（Hessian矩阵定义的范数），逼近函数的零点
  不断逼近函数的零点，而且若零点不唯一，则初始值会影响所求得的零点
- 特点【收敛快但计算复杂度高，迭代步数与变量个数的相关度小】
  - 牛顿法的收敛速度快，变换矩阵 $P=\nabla^2 f(x^*)\approx\nabla^2f(x)[x\rightarrow x^*]$ ，所以牛顿迭代是一个很好的搜索方向
  - 牛顿法具有仿射不变性（与坐标变换无关），对目标的条件数和坐标不敏感
  - 牛顿法可适用在不同规模的问题上，且10000维和10维问题的运算次数差别不大
  - 牛顿法的良好性能与算法参数无关
  - 牛顿方法的主要缺点是形成和存储Hessian矩阵的成本，以及计算牛顿步骤的成本高（解线性方程组），复杂度： $O(\frac13n^3)$
- 算法步骤
- 二阶收敛
  牛顿补偿Newton decrement： $\lambda(x)=(\nabla f(x)^T\triangle x_{nt})^{\frac12}=(\nabla f(x)^T\nabla^2f(x)^{-1}\nabla f(x))^{\frac12}=||\nabla f(x)||_{\nabla^2f(x)*}$ ，衡量 $x到x^*$ 的距离，可以作为二阶逼近下的停止条件。
  以下是收敛要求：
  - 一阶导可逆： $\varepsilon_{n+1}=\frac12\frac{g''(\xi_n)}{g'(x_n)}\varepsilon_n^2$ （二阶收敛）
  - Hessian矩阵满足一致连续（或Lipschitz条件）
  - 初始值 $x_0$ 与最优解充分靠近
- 拟牛顿法：DFP，BFGS
随机梯度下降SGD
迭代： $\theta^{t+1}=\theta^{t}-\eta\nabla_{\theta}{L'}, L'=\sum_{x\isin{s'}}{(f_{\theta}(x)-f^*(x))^2},s'\subsetneq s$
针对大数据集，内存不足的情况，SGD可以实现较快求解，SGD具有随机性，存在噪音，使得损失函数存在震荡，而GD不存在噪音，因为每一个样本都实现了求解