牛顿下降法和梯度下降法(最速下降法)的速度的比较

最新推荐文章于 2021-09-30 00:55:22 发布

chduan_10

最新推荐文章于 2021-09-30 00:55:22 发布

阅读量725

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

26 篇文章 0 订阅

订阅专栏

“牛顿下降法和梯度下降法在机器学习和自适应滤波中的都很重要，本质上是为了寻找极值点的位置。但是收敛的速度不同。本文中就两种方法来探究一下，哪种收敛方法速度快“

牛顿下降法的递推公式：

x n + 1 = x n - f' (x n) / f'' (x n)

梯度下降算法的递推公式：

x n + 1 = x n - μ * f' (x n)

解释一

下图是两种方法的图示表示，红色为牛顿下降法，绿色为梯度下降法，从图中直观的感觉是，红色线短，下降速度快。因为牛顿下降法是用二次曲面去拟合当前的局部曲面，而梯度下降法是用平面去拟合当前的局部曲面，一般用二次曲面拟合的更好，所以一般牛顿算法收敛快。

红颜色的

关于以上的说法中，梯度下降法是用平面去拟合当前的局部曲面。梯度 f’(x)的方向是函数变大的方向。这里需要解释一下，对于一维情况而言，梯度方向只有正方向和负方向。至于为什么梯度下降算法就是用平面去拟合了，大多数情况下，没有讲的详细。接下来就聊一下为什么。

首先考虑一下这个公式，这是一阶泰勒展式，其实就是用平面去拟合函数的局部曲面。

f (x + Δ x) = f (x) + f' (x) * Δ x

我们的目的是使得左边的值变小，那是不是应该使得下面的式子变为负值。

f' (x) * Δ x

这样不就会使得左边的式子变小吗。
但是如何使得上式一定为负值，简单的方法就是：

Δ x = - f' (x)

这样上式就变为

f (x + Δ x) = f (x) - f' (x) * f' (x)

现在满足使得下式变小了

f (x + Δ x)

但是不要忘了以上所有的一切只有在局部成立，也就是说在小范围才成立，那么下式就有很能太大

Δ x = - f' (x)

所以加个小的修正的因子，上式就变为：

Δ x = - μ * f' (x)

最终得到公式：

x n + 1 = x n - μ * f' (x n)

这就是为什么说梯度下降算法是用平面拟合函数的局部曲面。

至于说牛顿下降法是用二次曲面去拟合当前的局部曲面，首先考虑一下下式：

f (x + Δ x) = f (x) + f' (x) Δ x + 1 / 2 * f'' (x) * Δ x 2

同样我们希望左式最小，那么将左式看成是△x的函数，当取合适的△x值时，左边的式子达到极小值，此时导数为0。因此对上式进行求导数，得到一下公式：

0 = f' (x) + f'' (x) * Δ x

此时可得到公式：

x n + 1 = x n - f' (x n) / f'' (x n)

所以说牛顿下降法是用二次曲面来拟合函数的局部曲面。

综上而言，牛顿下降法利用了函数的更多的信息，能够更好的拟合局部曲面，所以收敛的速度也会加快。

解释二

关于梯度下降算法，其中最重要的就是要确定步长μ，它的值严重的影响了梯度下降算法的表现。

接下来考虑如下公式：

f' (x + Δ x) = f' (x) + f'' (x) * Δ x

和

Δ x = - μ * f' (x)

结合两个式子，得到：

f' (x + Δ x) = f' (x) - μ * f'' (x) * f' (x)

令左边的式子为0，得到：

μ = 1 / f'' (x)

由此可见牛顿下降法是梯度下降法的最优情况，因此牛顿下降法的收敛的速度必然更快。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
牛顿下降法和梯度下降法(最速下降法)的速度的比较

“牛顿下降法和梯度下降法在机器学习和自适应滤波中的都很重要，本质上是为了寻找极值点的位置。但是收敛的速度不同。本文中就两种方法来探究一下，哪种收敛方法速度快“牛顿下降法的递推公式： xn+1=xn−f′(xn)/f′′(xn)梯度下降算法的递推公式： xn+1=xn−μ∗f′(xn)解释一下图是两种方法的图示表示，红色为牛顿下降法，绿色为梯度下
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。