梯度下降

最新推荐文章于 2022-03-26 19:46:50 发布

CAM-TAY

最新推荐文章于 2022-03-26 19:46:50 发布

阅读量417

点赞数

分类专栏：机器学习文章标签：梯度下降梯度更新

本文链接：https://blog.csdn.net/u010358304/article/details/84324853

版权

机器学习专栏收录该内容

8 篇文章 2 订阅

订阅专栏

梯度下降

定义

所谓梯度 (Gradient Descent)的概念，通常出现在损失函数优化中。而我们常说的梯度，通常会和函数偏导数联系在一起，我们定义一个函数 $J(\theta_0, \theta_1,......, \theta_n)$ 关于参数 $\theta_j$ 的梯度为：
$\frac{\partial J(\theta_0, \theta_1,......, \theta_n)}{\partial \theta_j}$

梯度方向

沿着梯度方向，函数值增长最快。注意这里是增长最快，所以我们通常所说的梯度下降法，都是沿着梯度反方向更新参数，也就是说：
$\theta_j := \theta_j - \alpha\frac{\partial J(\theta_0, \theta_1,......, \theta_n)}{\partial \theta_j}.$
这里， $\alpha$ 通常叫做步长或者学习率，用于控制参数变动的幅度。这是一个需要调整的参数， $\alpha$ 设置过大，会使得参数一下子变化太大，可能会让函数跳过局部最小点，从而永远找不到（局部）极小点； $\alpha$ 设置过小，会使得参数变化太小，每次更新只变化一点点，学习太慢，需要很长时间才能找到极小点。

梯度更新

上式中给出了一个参数的更新公式。那么在实际算法中，我们需要对多个参数进行更新。
那么正确的更新顺序为：
$\frac{\partial J(\theta_0, \theta_1,......, \theta_n)}{\partial \theta_j}.$
$\frac{\partial J(\theta_0, \theta_1,......, \theta_n)}{\partial \theta_i}.$
$\theta_j := \theta_j-\alpha temp0.$
$\theta_i := \theta_i-\alpha temp1.$
也就是说，我们需要先计算好当前状态下每个参数的梯度，再进行参数更新。而不能根据顺序1,3,2,4，计算一个梯度就更新一个梯度。这就是所谓的同步更新。

缺点

局部最小点：梯度下降可能得到函数的某一个极小值，而不是整个函数的最小值。如下图所示，如果初始点为 $x_0$ ，那么最终得到的最优点可能为与 $x^*_0$ ，我们可以明显发现这是一个局部最优点，整个函数的最小值应当位于 $x^*_1$ ；当初始点为 $x_1$ 时，我们可能最终收敛到 $x^*_1$ 的位置。所以初始值的设置可能会影响算法最终的效果。
鞍点：saddle point，一个方向上梯度大于0，一个方向上梯度小于0。在高维数据上容易发生。这种情况下，虽然梯度为0，但其实并不是极小值点。

特征缩放比例：如果特征的取值范围不在相似范围的话，学习起来收敛速度回很慢，走很多弯路。这也是特征需要归一化的原因。

（图片截图自吴恩达机器学习课件）