梯度下降法Vs牛顿下降法

最新推荐文章于 2024-06-20 14:23:15 发布

First Snowflakes

最新推荐文章于 2024-06-20 14:23:15 发布

阅读量4k

点赞数

分类专栏：机器学习文章标签：梯度下降法牛顿法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35865125/article/details/79498799

版权

机器学习专栏收录该内容

23 篇文章 5 订阅

订阅专栏

Author: Frank

在机器学习领域中，梯度下降法和牛顿下降法是两个非常有分量的方法。两者在本质上都是为了寻找极值点的位置，但是牛顿下降法的收敛速度更快。下面以单变量函数为例来进行基本的解释。

牛顿下降法的递推公式：

梯度下降算法的递推公式：

x n + 1 = x n - μ * f' (x n)

方法比较：

一般称梯度下降法用平面去拟合当前的局部曲面，牛顿法用二次曲面来拟合。下图中红色的收敛轨迹代表牛顿法，另一条为梯度下降法。

原理阐释：

梯度下降法：

一阶泰勒展式如下所示：

f (x + Δ x) \approx f (x) + f' (x) * Δ x

在通过迭代寻找极小值点过程中，就是寻找Δx，使得迭代之后的点x+Δx对应的f(x+Δx)<f(x)。由上式可知，只需要 f′(x)∗Δx<0即可。从而可令：

简单的方法就是：

Δ x = - f' (x)

这样上式就变为

f (x + Δ x) = f (x) - f' (x) * f' (x)

泰勒展式只在局部成立，Δx不能太大，但是取Δx=−f′(x) 有可能太大，从而需要加个小的修正的因子，上式就变为：

Δ x = - μ * f' (x)

最终得到公式：

x n + 1 = x n - μ * f' (x n)

这就是为什么说梯度下降算法是用平面拟合函数的局部曲面。

牛顿下降法：

二阶泰勒展式如下所示：

f (x + Δ x)\approx f (x) + f' (x) Δ x + 1 / 2 * f'' (x) * Δ x 2

同样希望迭代之后的点x+Δx对应的f(x+Δx)<f(x)。那么将左式看成是△x的函数，当取合适的△x值时，左边的式子达到极小值，此时导数为0，上式对Δx求导数，得：

0 = f' (x) + f'' (x) * Δ x

此时可得到公式：

x n + 1 = x n - f' (x n) / f'' (x n)

所以说牛顿下降法是用二次曲面来拟合函数的局部曲面。

两种方法的关系：

关于梯度下降算法，其中最重要的就是要确定步长μ，它的值严重的影响了梯度下降算法的表现。

接下来考虑如下公式：（迭代后x+Δx处的导数为零时，对应最理想的情况）

f' (x + Δ x) = f' (x) + f'' (x) * Δ x

和

Δ x = - μ * f' (x)

结合两个式子，得到：

f' (x + Δ x) = f' (x) - μ * f'' (x) * f' (x)

令左边的式子为0，得到：

μ = 1 / f'' (x)

由此可见牛顿下降法是梯度下降法的最优情况，因此牛顿下降法的收敛的速度必然更快。

牛顿法同时考虑了目标函数的一、二阶偏导数，考虑了梯度变化趋势，因而能更合适的确定搜索方向加快收敛，但牛顿法也存在以下缺点：
1、对目标函数有严格要求，必须有连续的一、二阶偏导数，海森矩阵必须正定；
2、计算量大，除梯度外，还需计算二阶偏导矩阵及其逆矩阵。

--------------------------------

梯度法从初始点的领域开始判断，用目标函数的一阶偏导、以负梯度方向作为搜索方向，在局部进行下降，只考虑目标函数在迭代点的局部性质，然后步步逼近极值，往往是走之字型的。
牛顿法在二阶导数的作用下，从函数的凸性出发，直接搜索怎样到达极值点，也就是说在选择方向时，不仅考虑当前坡度是否够大，还会考虑你走了一步之后，坡度是否会变得更大。从收敛速度来看，梯度下降是线性收敛，牛顿法是超线性的，至少二阶收敛。

多变量函数需要用到Hessian matrix, 原理相同，可以参考：点击打开链接

First Snowflakes

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
梯度下降法Vs牛顿下降法

Author: Frank在机器学习领域中，梯度下降法和牛顿下降法是两个非常有分量的方法。两者在本质上都是为了寻找极值点的位置，但是牛顿下降法的收敛速度更快。下面以单变量函数为例来进行基本的解释。牛顿下降法的递推公式：梯度下降算法的递推公式： xn+1=xn−μ∗f′(xn)方法比较：一般称梯度下降法用平面去拟合当前的局部曲面，牛顿法用二次曲面来拟合。下图中红色的收敛轨迹代表牛顿法，另一条为梯...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

First Snowflakes 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。