李宏毅机器学习 Gradient Descent

最新推荐文章于 2023-08-02 19:12:35 发布

herosunly

最新推荐文章于 2023-08-02 19:12:35 发布

阅读量5.4k

点赞数 17

分类专栏：李宏毅机器学习文章标签：梯度下降

本文链接：https://blog.csdn.net/herosunly/article/details/90370906

版权

李宏毅机器学习专栏收录该内容

13 篇文章 16 订阅

订阅专栏

在给定的函数空间中求解最佳函数，本质上是一个最优化问题，即求损失函数最小值对应的参数，然后将参数对应得到最佳函数。一种方法是解析解，但在机器学习中更加常用的是利用梯度下降求最小值。

如果大家想更加深入的学习梯度下降的相关内容，建议大家学习paper，标题为An overview of gradient descent optimization algorithms，下载地址为 https://arxiv.org/abs/1609.04747 或 https://download.csdn.net/download/herosunly/11153936。

1. 梯度下降回顾

在这里插入图片描述

2. 梯度下降的几个tips

2.1 调整学习率

下图是参数和损失值的曲线。但对于每一条曲线而言，比如Very Large，选用一个（抽样选择）非常大的学习率，然后绘制出的黄色曲线。
在这里插入图片描述

2.1.1 时间衰减的学习率

时间衰减的学习率指的是随着时间增加，学习率逐渐减少。
在这里插入图片描述

2.1.2 Adagrad

Adagrad的核心思想是在时间衰减后除以之前偏导平方和的平方根。
可参考文献地址为：
http://seed.ucsd.edu/mediawiki/images/6/6a/Adagrad.pdf
http://courses.cs.washington.edu/courses/cse547/15sp/slides/adagrad.pdf
在这里插入图片描述

公式化简后的Adagrad:

表面看起来分子和分母会对step的影响起到相反的作用。

下图表示了两种情况，一种是从小到特别大，一种是从大到特别小。我们逐个来分析：

从小到特别大，分子变特别大了，分母是小和特别大的平方和的平方根，所以从小往大偏移了一段（变大了），所以此时分子的影响会更大，所以step会变大，但变大的幅度没有那么大。
从大到特别小，分子变特别小了，分母是大和特别小的平方和的平方根，所以从大往小偏移了一段（变小了），所以此时分子的影响会更大，所以step会变小，但变小的幅度没有那么大。

梯度越大，所需要的步幅越大？前提条件是同一个参数。

跨参数就会得到错误的结论，如下图所示：

通过二阶导数和一阶导数，可以更快的接近最低点。

结合下图，解释最佳步幅：
在w1方向上，二次微分是比较小的，因为比较平滑；在w2方向上，二次微分比较大，因为比较尖。所以对于每个参数而言，需要单独考虑其一阶导数和二阶导数，才能求得到最低点的最佳步幅。但该图的损失函数均为二次函数，如果不是二次函数，可能就不是 $step=\frac{|First \quad derivative|}{Second \quad derivative}$ 。

为什么分母代表二阶导数，这一点还需后续进一步研究，暂且放下了。

2.2 随机梯度下降

根据计算梯度的样本个数，可分为批量梯度下降（全部样本）、小批量梯度下降（batch个数的样本）、随机梯度下降（单个样本）。
在这里插入图片描述

2.3 特征缩放

特征缩放分为两种方法：归一化和标准化。
在这里插入图片描述
下图为归一化前后的对比结果。

下图为标准化的表达式：

3. 梯度下降理论

3.1 可适用的范围

下列命题并不是恒成立的，比如遇到鞍点或者极值点（但不是最小值点）。
在这里插入图片描述

3.2 数学简要证明

梯度下降的方法如下图所示：每次在一个小的领域内，得到最小值。然后行进到最小值点。
在这里插入图片描述

3.2.1 泰勒公式

在这里插入图片描述
阶次越高，则和f(x)越接近。

多元变量的泰勒公式表示和近似表示

在这里插入图片描述

将公式进行变换后：

得到最终的梯度下降公式：

herosunly

关注

17
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
4
评论
李宏毅机器学习 Gradient Descent

在给定的函数空间中求解最佳函数，本质上是一个最优化问题，即求损失函数最小值对应的参数，然后将参数对应得到最佳函数。一种方法是解析解，但在机器学习中更加常用的是利用梯度下降求最小值。如果大家想更加深入的学习梯度下降的相关内容，建议大家学习paper，标题为An overview of gradient descent optimization algorithms，下载地址为 https:...
复制链接

扫一扫