梯度下降法和(拟)牛顿法区别及介绍

pupilxmk

于 2018-06-19 17:36:29 发布

阅读量9.3k

点赞数 10

分类专栏：学习点滴文章标签：机器学习人工智能凸优化最优化问题

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pupilxmk/article/details/80735599

版权

本文介绍了梯度下降法和牛顿法在求解无约束最优化问题中的应用，包括它们的基本原理、区别与对比。梯度下降法作为一阶优化算法，适合大规模问题但收敛速度较慢；牛顿法则通过二阶信息快速收敛，但计算成本高。在实际中，由于牛顿法对初始值敏感且计算复杂，常采用拟牛顿法，如DFP、BFGS和L-BFGS算法，以降低计算复杂度并保持较好的收敛性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度下降法和牛顿法介绍

梯度下降法和牛顿法都是求解无约束最优化问题的常用方法。
假设 $f(x)$ 为 $\mathbf{R}^n$ 上具有一阶连续偏导数的函数，要求解的无约束最优化问题为

min x \in R n f (x)

$\min_{x \in \mathbf{R}^n} \ f(x)$

x∗ x ∗ $x^*$ 表示目标函数的极小点。下面分别介绍梯度下降法和牛顿法。

梯度下降法

梯度下降法是一种迭代算法。选取适当的初值 $x^{(0)}$ ，不断迭代，更新 $x$ 的值，进行目标函数的极小化，直到收敛。因为负梯度方向是使函数值下降最快的方向，在迭代的每一步，以扶梯度方向更新 $x$ 的值，从而达到减少函数值的目的。

由于 $f(x)$ 具有一阶连续偏导数，若第k次迭代值为 $x^{(k)}$ ，则可将 $f(x)$ 在 $x^{(k)}$ 附近进行一阶泰勒展开：

f (x) = f (x (k)) + g T k (x - x (k)) (1.1)

$f(x) = f(x^{(k)}) + g_k^T(x-x^{(k)}) \tag{1.1}$
这里，

gk=g(x(k))=∇f(x(k)) g k = g ( x ( k ) ) = ∇ f ( x ( k ) ) $g_k=g(x^{(k)}) = \nabla f(x^{(k)})$ 为

f(x) f ( x ) $f(x)$ 在

x(k) x ( k ) $x^{(k)}$ 处的梯度。

求出第k+1次迭代值 $x^{(k+1)}$ :

x (k + 1) \leftarrow x (k) + λ k p k (1.2)

$x^{(k+1)} \gets x^{(k)} + \lambda_k p_k\tag{1.2}$
其中，

pk p k $p_k$ 是搜索方向，取负梯度方向

pk=−∇f(x(k)) p k = − ∇ f ( x ( k ) ) $p_k=-\nabla f(x^{(k)})$ ,

λk λ k $\lambda_k$ 是步长，由一维搜索确定，即

λk λ k $\lambda_k$ 使得

f (x (k) + λ k p k) = min λ \geq 0 f (x (k) + λ p k) (1.3)

$f(x^{(k)} + \lambda_k p_k) = \min_{\lambda \ge 0} f(x^{(k)} + \lambda p_k)\tag{1.3}$

牛顿法

牛顿法收敛速度快，每一步需要求解目标函数的海赛矩阵的逆矩阵，计算比较复杂，可通过拟牛顿法简化计算过程。

假设 $f(x)$ 具有二阶连续偏导数，若第k次迭代值为 $x^{(k)}$ ，则可在 $x^{(k)}$ 附近进行二阶泰勒展开：

f (x) = f (x (k)) + g T k (x - x (k)) + 1 2 (x - x (k)) T H (x (k)) (x - x (k)) (2.1)

$f(x) = f(x^{(k)}) + g_k^T(x-x^{(k)}) + \frac{1}{2}(x-x^{(k)})^T H(x^{(k)})(x-x^{(k)})\tag{2.1}$
这里，

gk=g(x(k))=∇f(x(k)) g k = g ( x ( k ) ) = ∇ f ( x ( k ) ) $g_k=g(x^{(k)}) = \nabla f(x^{(k)})$ 为

f(x) f ( x ) $f(x)$ 在

x(k) x ( k ) $x^{(k)}$ 处的梯度，

H(x(k)) H ( x ( k ) ) $H(x^{(k)})$ 是

最低0.47元/天解锁文章

博客等级

码龄9年

7
原创

20
点赞

61
收藏

4
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

【Python】基于协程的并发WebSocket通信实践
ZRHann: 这个是不是只能连接一个客户端
【Python】基于协程的并发WebSocket通信实践
徐先生没洗头: 感谢大佬分享
梯度下降法和(拟)牛顿法区别及介绍
yougwypf1991: 1 梯度下降法是一阶优化算法，牛顿法是二阶优化算法 2 牛顿法的收敛速度相比梯度下降法常常较快 3 牛顿法每次需要更新一个二维矩阵，计算代价很大，实际使用中常使用拟牛顿法 4 牛顿法对初始值有一定要求，在非凸优化问题中（如神经网络训练），牛顿法很容易陷入鞍点（牛顿法步长会越来越小），而梯度下降法则很容易逃离鞍点（因此在神经网络训练中一般使用梯度下降法，高维空间的神经网络中存在大量鞍点） 5 梯度下降法在靠近最优点时会震荡，因此步长调整在梯度下降法中是必要的，具体有adagrad, adadelta, rmsprop, adam等一系列自适应学习率的方法

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。