梯度法（SGD）、拟牛顿法（LBFGS）与共轭梯度法（CG）

最新推荐文章于 2025-02-20 19:52:14 发布

刀砍磁感线

最新推荐文章于 2025-02-20 19:52:14 发布

阅读量1.1w

点赞数 1

分类专栏：算法文章标签： SGD LBFGS CG 梯度法拟牛顿法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dkcgx/article/details/46881819

版权

本文对比了SGD、LBFGS和CG三种优化算法在深度学习中的性能。SGD实现简单，但需要手动调参，LBFGS在低维参数时效果好，CG适合高维问题。实验表明，LBFGS和CG在GPU上优化速度快，而大minibatch的SGD性能提升。在Autoencoder和Sparse autoencoder模型中，SGD的表现通常较差。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、基本原理

梯度法：

由一阶泰勒级数展开式，f(x+dx) = f(x) + sum(i,df/dx(i)*dx(i)) + r(x,dx)。其中r(x,dx)为余项，当dx很小时，可忽略余项。推倒得迭代：x=x+dx=x-miu*dfx。

优点：可收敛于一个极小值点。

缺点：收敛速度慢，在梯度值小时尤为明显。学习率miu需要依据经验赋值。

牛顿法：

由二阶泰勒级数展开式，f(x+dx) ~= f(x) + f’(x)*dx + 1/2*(dx)’H(dx)，H为黑森矩阵。推到的迭代式：dx=-H[-1]df/dx。

优点：精度高于梯度法。

缺点：H矩阵计算存储复杂，收敛性没法保证。

拟牛顿法：利用函数一阶导数（梯度）来近似递推H矩阵。

共轭梯度法：

共轭梯度法也是一种近似的二阶方法，只需计算一阶导数，不需计算和存储二阶导数。

二、三者性能比较（引自网络）

本文主要是参考论文：On optimization methods fordeep learning，文章内容主要是笔记SGD（随机梯度下降），LBFGS（受限的BFGS），CG（共轭梯度法）三种常见优化算法的在deeplearning体系中的性能。下面是一些读完的笔记。<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。