为什么深度学习不使用牛顿法或拟牛顿法优化

最新推荐文章于 2024-07-17 02:05:32 发布

PKU_Jade

最新推荐文章于 2024-07-17 02:05:32 发布

阅读量2.7k

点赞数

本文链接：https://blog.csdn.net/PKU_Jade/article/details/80993057

版权

由于深度学习的优化目标通常是非凸的，牛顿法及其变种如拟牛顿法在解决此类问题时可能会导致优化过程不稳定。高维空间中的Hessian矩阵计算复杂度高，且非凸性质使得牛顿法无法保证每次迭代都能降低目标函数。因此，实践中更倾向于使用梯度下降类方法。

摘要由CSDN通过智能技术生成

                    
                    Hessian矩阵是 n∗n  n ∗ n 的所以空间复杂度会很高

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

PKU_Jade

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

拟牛顿法和随机梯度下降.zip

08-25

拟牛顿法和随机梯度下降.zip

自问自答1——为什么深度学习不采用牛顿法及其衍生算法作为优化算法？

CodeTutor

05-12

4722

原因一：Hessian矩阵难以求解。深度网络很难写出拟合函数的表达式，遑论直接得到其梯度表达式，更不要说得到基于梯度的Hessian矩阵了。

参与评论您还未登录，请先登录后发表或查看评论

最优化理论-拟牛顿法[Matlab]

最新发布

qq_52176723的博客

07-17

733

本文简要介绍了最优化理论中的拟牛顿法，阐述了拟牛顿法的基本思路，介绍三种经典拟牛顿法和它们的优缺点，并利用matlab简要设计了算法进行验算。

为什么深度学习不采用牛顿法或拟牛顿法作为优化算法？

TcD的博客

02-05

3102

出处：http://blog.csdn.net/VictoriaW/article/details/71710280 原因一：牛顿法需要用到梯度和Hessian矩阵，这两个都难以求解。因为很难写出深度神经网络拟合函数的表达式，遑论直接得到其梯度表达式，更不要说得到基于梯度的Hessian矩阵了。原因二：即使可以得到梯度和Hessian矩阵，当输入向量的维度N较大时，Hessian矩阵的大小

USC提出拟牛顿法深度学习优化器Apollo，效果比肩SGD和Adam

qq_29462849的博客

09-08

319

作者丨Xuezhe Ma@知乎（已授权）来源丨https://zhuanlan.zhihu.com/p/401826098编辑丨极市平台导读本文介绍了Apollo，一种针对非凸随机优化的...

拟牛顿算法

thankyvision

11-05

2957

最近在看条件随机场中的优化算法。其中就设计到了无约束化的最优化方法，也就是牛顿法。在CRF（conditional random field）中，使用的是L-BFGS法。费了好大的劲把算法的原理及推导算是看明白了，可是到了具体实现上，又碰到问题了，比如在求搜索方向的时候，使用但是程序中如何实现呢？现在转载一篇文章，看过之后，会非常受益。使用导数的最优化算法中

机器学习优化算法中梯度下降,牛顿法和拟牛顿法的优缺点详细介绍

chao_1083934282的博客

08-12

1万+

1、梯度下降法梯度下降法实现简单，当目标函数是凸函数时，梯度下降法的解是全局解。一般情况下，其解不保证是全局最优解，梯度下降法的速度也未必是最快的。梯度下降法的优化思想：用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为是”最速下降法“。最速下降法越接近目标值，步长越小，前进越慢。缺点：靠近极小值时收敛速度减慢，求解需要很多次的迭代；直线搜...

花书+吴恩达深度学习（九）优化方法之二阶近似方法（牛顿法, CG, BFGS, L-BFGS）

今天你学习了吗

12-03

3751

目录 0. 前言 1. 牛顿法 2. 共轭梯度法（CG） 3. BFGS 4. L-BFGS 如果这篇文章对你有一点小小的帮助，请给个关注，点个赞喔~我会非常开心的~ 花书+吴恩达深度学习（五）正则化方法（防止过拟合）花书+吴恩达深度学习（六）优化方法之 Mini-batch（SGD, MBGD, BGD）花书+吴恩达深度学习（七）优化方法之基本算法（Momentum, N...

机器学习、深度学习中常用的优化算法详解——梯度下降法、牛顿法、共轭梯度法

小马日记

10-22

5658

一、梯度下降法 1、总述：在机器学习中，基于基本的梯度下降法发展了三种梯度下降方法，分别为随机梯度下降法，批量梯度下降法以及小批量梯度下降法。（1）批量梯度下降法（Batch Gradient Descent，BGD） BGD 得到的是一个全局最优解，但是批量梯度下降法在更新每一个参数时，都需要所有的训练样本，如果样本的数量很大，那么可想而知这种方法的迭代速度会相当的慢。从迭代的次数上来看，B...

神经网络为什么不用拟牛顿法而是用梯度下降？

CSDN 精品推荐

08-08

173

虽然梯度下降法在神经网络中更为常见，但也有一些改进的梯度下降法和自适应学习率的优化器（如Adam、RMSProp等），可以在一定程度上缓解梯度下降法的一些问题，提高优化的效果。在实际应用中，根据问题的性质和数据集的规模，选择合适的优化算法是很重要的。它是对牛顿法的改进，主要解决了牛顿法需要计算Hessian矩阵（二阶导数矩阵）的问题，从而在高维情况下减少了计算复杂度。拟牛顿法需要计算和存储Hessian矩阵的逆或近似，而Hessian矩阵是二阶导数矩阵，计算和存储它的成本非常高，尤其在高维情况下。

机器人中的数值优化（八）——拟牛顿方法（上）

慕羽★的博客

09-04

1635

本系列文章主要是我在学习《数值优化》过程中的一些笔记和相关思考，主要的学习资料是深蓝学院的课程《机器人中的数值优化》和高立编著的《数值最优化方法》等，本系列文章篇数较多，不定期更新，上半部分介绍无约束优化，下半部分介绍带约束的优化，中间会穿插一些路径规划方面的应用实例

为什么不用牛顿法来代替梯度下降算法？

donkey_1993的博客

09-09

3073

a. 牛顿法使用的是目标函数的二阶导数，在高维情况下这个矩阵非常大，计算和存储都是问题。 b. 在小批量的情况下，牛顿法对于二阶导数的估计噪声太大。 c.目标函数非凸的时候，牛顿法容易受到鞍点或者最大值点的吸引。 ...

深度学习为什么使用梯度下降，而不使用牛顿法或拟牛顿法优化？

Matrix_cc的博客

03-17

2187

梯度下降法 (SGD 为例) 牛顿法 拟牛顿法 时间复杂度(单次迭代) 只需计算 1 阶导，时间复杂度低，为 O(n) 需计算 Hessian 矩阵及其逆，时间复杂度高，为 O(n3) 用正定矩阵近似 Hessian 矩阵的逆，时间复杂度为 O(n2) 收敛速度收敛慢，迭代次数大收敛快，迭代次数小收敛快，迭代次数小初始...

深度学习5牛顿法

weixin_30632899的博客

05-18

346

牛顿法解最大似然估计对于之前我们解最大似然估计使用了梯度下降法，这边我们使用牛顿法，速度更快。 牛顿法也就是要求解，可导，θ用下面进行迭代。具体看这个图对于我们刚刚的求最大似然估计，也就是，则下面在原理上说一说。摘自：http://blog.csdn.net/luoleicn/article/details/6527049 对于一个目标函数f，求函...

[深度学习] 牛顿法

四月晴

11-26

1563

牛顿法 牛顿法是一种二阶梯度方法。与一阶梯度算法相比，二阶梯度方法使用了二阶导数进行了优化。具体解释如下：在函数上随便找个点，做这个点的切线，求出切线的跟（切线和x轴交点）从这个切线的跟出发，做一条垂线与函数相交，继续方才的工作，此时我们发现B比A点更接近跟继续进行上述操作，直到迭代收敛 ...

牛顿法及牛顿法求解优化问题

Timingspace的博客

03-21

1万+

牛顿法及牛顿法求解优化问题牛顿法

常见的几种最优化方法（梯度下降法、牛顿法、拟牛顿法、共轭梯度法等）

weixin_30947043的博客

09-16

8744

我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题，比如每个企业和个人都要考虑的一个问题“在一定成本下，如何使利润最大化”等。最优化方法是一种数学方法，它是研究在给定约束之下如何寻求某些因素(的量)，以使某一(或某些)指标达到最优的一些学科的总称。随着学习的深入，博主越来越发现最优化方法的重要性，学习和工作中遇到的大多问题都可以建模成一种最优化模型进行求解，比如我们现在学习的机器学习算法...

最优化方法：牛顿迭代法和拟牛顿迭代法