[机器学习]梯度下降

最新推荐文章于 2022-11-11 20:02:06 发布

3points

最新推荐文章于 2022-11-11 20:02:06 发布

阅读量355

点赞数

分类专栏：机器学习文章标签：机器学习人工智能算法

本文链接：https://blog.csdn.net/m0_45164809/article/details/121217650

版权

11 篇文章 1 订阅

订阅专栏

[机器学习]——梯度下降

梯度下降是一种非常通用的优化算法，能够为大范围问题找到最优解。梯度下降的中心思想就是迭代地调整参数从而使成本函数最小化。

基本思想：

以下皆以线性模型为例

线性回归的MSE成本函数：
$MSE(X,h_{\theta})=\frac{1}{m}\sum_{i=1}^{m}(\theta^T\cdot X^{(i)}-y^{(i)})^2$
成本函数的偏导数：
$\frac{\partial }{\partial \theta_j}=\frac{2}{m}\sum_{i=1}^{m}(\theta^T\cdot X^{(i)}-y^{(i)})^2x^{(i)}_{j}$
成本函数的梯度向量：
$\nabla_{\theta}MSE(\theta )=\begin{pmatrix} \frac{\partial }{\partial \theta_0}MSE(\theta) \\ \frac{\partial }{\partial \theta_1}MSE(\theta) \\ \vdots \\ \frac{\partial }{\partial \theta_n}MSE(\theta)\\ \end{pmatrix} =\frac{2}{m}X^T\cdot(X\cdot\theta-y)$
梯度下降步长
$\theta^{next step}=\theta-\eta\nabla_{\theta}MSE(\theta )$

如何设置合适的迭代次数？
在开始设置一个非常大的迭代次数，但是当梯度向量的值变得很微小时中断算法——即当它的范数低于 $\varepsilon$ 时，这时梯度下降几乎已经到达了最小值。

梯度下降在训练时需要用整个训练集计算每一步的梯度，所以当训练集很大时算法会很慢。而随机梯度下降每一步在训练集随机选择一个实例，基于该实例计算梯度。

随机梯度下降的特点： 由于算法的随机性，随机梯度下降比梯度下降要不规则的多。成本函数不再是缓缓降低至最小值，而是不断上上下下，但整体而言还是在下降。注意即使是它到达了最小值还是会持续反弹，永远不会停止，所以算法停下来的参数值虽然是足够好的但不是最优的。

当成本函数非常不规则时，随机梯度下降可以帮助跳出局部最小值。

随机性好处使得随机梯度下降可以逃离局部最优，但缺点是永远定位不了最小值。

解决办法：逐步降低学习率
开始步长比较大（有利于快速进展逃离局部最小），然后越来越小，使算法靠近全局最小值。该过程称为模拟退火。

确定每个迭代学习率的函数叫做学习计划。如果学习率降太快，可能会陷入局部最小，甚至停留在走向最小值的半途中；如果学习率降得太慢，则需要太长时间到达最小值附近，若提早结束，可能只得到一个次优方案。

机器学习算法：SGDRegressor

每一步梯度下降，既不是基于整个训练集（批量梯度下降）、也不是基于单个实例（随机梯度下降），而是基于一小部分随机实例集，即小批量。

小批量梯度下降的主要优势是可以从矩阵运算的硬件优化中获得显著的性能提升，特别是用到图形处理器时。

算法	m很大	是否支持核外	n很大	超参数	是否需要缩放	sklearn
批量梯度下降	慢	否	快	2	是	n/a
随机梯度下降	快	是	快	$\ge 2$	是	SGDRegressor
小批量梯度下降	快	是	快	$\ge 2$	是	n/a

关注