梯度下降是我们在机器学习中进行模型更新的一种常用方式,我们模型更新的目的往往是寻找最优解(对于凸函数而言)或者次优解,而对于高维的特征而言其过程往往是曲折的。
我们可以将寻找最优解的过程类比为下山。如果下山时雾气很大,我们无法选择最短路径,但可以通过周围的环境来进行判断当前位置相对最陡峭的地方往下走,一步步达成目的。
批梯度下降法(BGD)
批梯度下降法是梯度下降最原始的形式,他是利用所有的样本数据进行梯度计算,而后更新参数
我们拿线性回归进行举例,线性回归的基本方程为:
Y
^
=
θ
T
X
\hat Y=\theta^TX
Y^=θTX
其损失函数为:
L
(
θ
)
=
∣
∣
θ
T
X
−
Y
∣
∣
2
=
∑
i
=
1
n
(
θ
T
X
(
i
)
−
Y
(
i
)
)
2
\begin{aligned}L(\theta)&=||\theta^TX-Y||^2\\&=\sum\limits_{i=1}^n(\theta^TX^{(i)}-Y^{(i)})^2\end{aligned}
L(θ)=∣∣θTX−Y∣∣2=i=1∑n(θTX(i)−Y(i))2
其中
n
n
n为样本的数量,对于批梯度下降法而言,我们就是拿所有
n
n
n条样本用来计算,对于一个可导函数而言,梯度下降的方向就是该点一阶导数的负方向,因此我们可以进行参数的更新:
θ
j
=
θ
j
−
α
∂
L
(
θ
)
∂
θ
j
\theta_j=\theta_j-\alpha\frac{\partial L(\theta)}{\partial \theta_j}
θj=θj−α∂θj∂L(θ)
其中
α
\alpha
α为学习率,是人工指定的超参数,控制着我们梯度下降的速度
优缺点
- 优点:全局最优解;易于并行实现;
- 缺点:当样本数目很多时,训练过程会很慢。
随机梯度下降法(SGD)
它的具体思路是在更新每一参数时都使用一个样本来进行更新,也就是以上批处理方程中 n n n的等于1。每一次跟新参数都用一个随机选择的样本,更新很多次。如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就已经将 θ \theta θ迭代到最优解了,对比上面的批量梯度下降,迭代一次需要用到十几万训练样本,一次迭代不可能最优,如果迭代10次的话就需要遍历训练样本10次,这种更新方式计算复杂度太高。
同时相比于BGD,其噪音往往更多,因此在更新的过程中看起来很盲目,即当前方向有可能不是最优的方向,但整体方向没什么问题
优缺点
- 优点:训练速度快;
- 缺点:准确度下降,并不是全局最优;不易于并行实现。
小批量梯度下降(MBGD)
我们从上面两种梯度下降法可以看出,其各自均有优缺点,那么能不能在两种方法的性能之间取得一个折衷呢?即,算法的训练过程比较快,而且也要保证最终参数训练的准确率,而这正是小批量梯度下降法(Mini-batch Gradient Descent,简称MBGD)的初衷。
小批量梯度下降法(Mini-batch Gradient Descent,.简称MBGD):它的具体思路是在更新每一参数时都使用一部分样本来进行更新(即在参数更新的过程中 n n n替换为 m , m < n m,m< n m,m<n),也就是批处理方程中的的值大于1小于所有样本的数量。为了克服上面两种方法的缺点,又同时兼顾两种方法的优点。
三种方法使用的情况:
如果样本量比较小,采用批量梯度下降算法。如果样本太大,或者在线算法,使用随机梯度下降算法。在实际的一般情况下,采用小批量梯度下降算法。