梯度下降、牛顿法

最新推荐文章于 2023-06-29 11:27:48 发布

Alinoo

最新推荐文章于 2023-06-29 11:27:48 发布

阅读量804

点赞数

分类专栏：理论回顾文章标签：深度学习算法

本文链接：https://blog.csdn.net/clwdzxc1992/article/details/107300414

版权

理论回顾专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、梯度下降（最速下降）

最优化：目标是寻找x值，使得函数f(x)逐步往f(x)最小值方向移动。
直观解释：从几何意义上来说，梯度向量就是函数f增加最快的地方，或者说，沿着梯度向量的方向，更加容易找到函数的最大值。反过来说，沿着梯度向量相反的方向（加负号），则更加容易找到函数的最小值。
简单推导（泰勒+导数推导不严格，一般就是直接设差值为负梯度。）

因此，在梯度下降中，我们先选取一个初始值x和常数α>0，然后不断通过上式来迭代，直到达到停止条件。
代码举例（一元/二元）
https://tangshusen.me/Dive-into-DL-PyTorch/#/chapter07_optimization/7.2_gd-sgd

二、牛顿法

求解方程：一阶导牛顿法相当于直线方程f(x)求零点
最优化：二阶导牛顿法是寻找f’(x)即梯度为0的点
优点：二次收敛速度较快：当目标函数是二次函数时，海塞矩阵退化成一个常数矩阵，从任一初始点出发，牛顿法可一步到达，因此它是一种具有二次收敛性的算法。对于非二次函数，若函数的二次性态较强，或迭代点已进入极小点的邻域，则其收敛速度也是很快的
缺点：
- 牛顿法的迭代公式中由于没有步长因子，是定步长迭代。对于非二次型目标函数，有时会使函数值上升，设置出现迭代点发散而导致迭代失败的情况。为解决这个问题，出现了“阻尼牛顿法”，增加一个步长因子。
- 每一步迭代需要计算Hessian矩阵的逆，计算复杂 —>拟牛顿法。

三、梯度下降法与牛顿法的比较

在这里插入图片描述
为什么牛顿法比梯度下降法的迭代次数更少？
A：牛顿法是二阶收敛，梯度下降是一阶收敛，所以牛顿法就更快。通俗来说梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步，牛顿法在选择方向时，不仅会考虑坡度是否够大，还会考虑你走了一步之后，坡度是否会变得更大。所以，可以说牛顿法比梯度下降法看得更远一点，能更快地走到最底部。
如下图示，红色的牛顿法的迭代路径，绿色的是梯度下降法的迭代路径
在这里插入图片描述
为什么深度学习不采用牛顿法及其衍生算法作为优化算法？
○ 【计算】牛顿法需要用到梯度和Hessian矩阵的逆，这两个都难以求解。因为很难写出深度神经网络拟合函数的表达式，遑论直接得到其梯度表达式，更不要说得到基于梯度的Hessian矩阵了。
○ 【内存】当输入向量的维度NN较大时，Hessian矩阵的大小是N×NN×N，所需要的内存非常大。
○ 【鞍点】在高维非凸优化问题中，鞍点相对于局部最小值的数量非常多，而且鞍点处的损失值相对于局部最小值处也比较大。而二阶优化算法是寻找梯度为0的点，所以很容易陷入鞍点；而梯度下降法目标寻找更小f(x)，更容易逃离鞍点。
在这里插入图片描述
在神经网络（非凸问题）的训练中，大多数都采用梯度下降法一类方法。而在训练逻辑回归（凸问题）等模型时，可采用梯度下降和拟牛顿方法。
梯度下降法与最小二乘法有什么区别？
梯度下降法和最小二乘法相比，梯度下降法需要选择步长，而最小二乘法不需要。梯度下降法是迭代求解，最小二乘法是计算解析解。如果样本量不算很大，且存在解析解，最小二乘法比起梯度下降法要有优势，计算速度很快。但是如果样本量很大，用最小二乘法由于需要求一个超级大的逆矩阵，这时就很难或者很慢才能求解解析解了，使用迭代的梯度下降法比较有优势。

参考文献：
百面机器学习
统计学习方法-李航
https://zhuanlan.zhihu.com/p/37524275
https://blog.csdn.net/Matrix_cc/article/details/104925726?utm_medium=distribute.pc_relevant.none-task-blog-baidujs-5