机器学习之梯度下降（BGD，SGD， MBGD）

Diana003

已于 2022-01-22 13:56:11 修改

阅读量772

点赞数

分类专栏：机器学习理论推导文章标签：机器学习逻辑回归深度学习

于 2022-01-22 13:52:12 首次发布

本文链接：https://blog.csdn.net/Diana003/article/details/122636587

版权

机器学习理论推导专栏收录该内容

9 篇文章 0 订阅

订阅专栏

梯度下降

梯度下降

（批量）梯度下降法(BGD)

1. 递推公式推导过程

通过多项式对函数进行逼近的方法得到
$f(x)=f(x_0)+\frac{f'(x_0)}{1!}(x-x_0)+\frac{f''(x_0)}{2!}(x-x_0)^2+\dots+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+R_n(x)$
故
$f(x)≈f(x_0)+f'(x_0)(x-x_0)$
其中令 $\Delta x=x-x_0$ ，则有
$f(x)≈f(x_0)+\Delta x\nabla f(x_0)$
则得到
$f(x)-f(x_0)=\Delta x\nabla f(x_0)$
其实 $\Delta x$ 和 $\nabla f(x_0)$ 都是向量，因此需要 $f(x)-f(x_0)$ 最小，只有当 $\Delta x$ 和 $\nabla f(x_0)$ 两个方向相反，故有
$\Delta x=-\alpha \nabla f(x_0)~~~~~~~\alpha >0$
最终得到梯度下降法的递推公式为
$x:=x-\alpha \nabla f(x)$

2. 求解最小二乘问题（采用梯度下降算法求解线性回归模型最优解）

线性回归模型
$f_\omega(x)=\omega_0+\omega_1x+\dots+\omega_dx_d$
其中d表示有d个特征.
损失函数
$J(\widehat{\omega})=\frac{1}{2m}\sum\limits_{i=1}^m(X_i\widehat{\omega}-y_i)^2$
其中m表示有m个样本点.
使用梯度下降最小化损失函数，求解最优解

根据梯度下降递推公式有
$\widehat{\omega}:=\widehat{\omega}-\alpha\frac{\partial{J(\widehat{\omega})}}{\partial{\widehat{\omega}}}$
即
$\widehat{\omega}:=\widehat{\omega}-\frac{\alpha}{m}X^T(X\widehat{\omega}-y)=\widehat{\omega}-\frac{\alpha}{m}\sum\limits_{i=1}^m(X_i\widehat{\omega}-y_i)X_i^T$

3. 优点

此时时间复杂度为 $O (m d)$ ,迭代次数少

4. 缺点

每次迭代都要用到训练集所有的数据，因此当数据量大的时候迭代速度会很慢

随机梯度下降（SGD）

通过观察发现 $\frac{1}{m}\sum\limits_{i=1}^m(X_i\widehat{\omega}-y_i)X_i^T$ 相当于是所有训练集样本点的均值

记 $z_i=(X_i\widehat{\omega}-y_i)X_i^T$ ，每个样本点i选取的概率为 $\frac{1}{m}$ ，则有
$E_i(z_i)=\frac{1}{m}\sum\limits_{i=1}^m(X_i\widehat{\omega}-y_i)X_i^T$
故随机梯度下降法的递推公式为
$\widehat{\omega}:=\widehat{\omega}-\alpha(X_j\widehat{\omega}-y_j)X_j^T$

1. 优点

每次迭代使用随机的一个样本来对参数进行更新，使得训练速度加快，此时的时间复杂度为 $O (d)$

2. 缺点

准确度下降，当目标函数为强凸函数的情况下，无法做到线性收敛
可能会收敛到局部最优
迭代次数比BGD多

小批量梯度下降法(MBGD)

鉴于BGD,SGD的优缺点，提出每次迭代使用部分样本来对参数进行更新，故MBGD的迭代公式为
$\widehat{\omega}:=\widehat{\omega}-\frac{\alpha}{\# J}\sum\limits_{j\in J}(X_j\widehat{\omega}-y_j)X_j^T$