深度学习为什么使用梯度下降，而不使用牛顿法或拟牛顿法优化？

烟雨人长安

已于 2023-08-08 18:09:46 修改

阅读量2k

点赞数

分类专栏：机器学习算法文章标签：机器学习

于 2020-03-17 17:03:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Matrix_cc/article/details/104925726

版权

机器学习算法专栏收录该内容

14 篇文章 2 订阅

订阅专栏

	梯度下降法 (SGD 为例)	牛顿法	拟牛顿法
时间复杂度 (单次迭代)	只需计算 1 阶导，时间复杂度低，为 O(n)	需计算 Hessian 矩阵及其逆，时间复杂度高，为 O(n3)	用正定矩阵近似 Hessian 矩阵的逆，时间复杂度为 O(n2)
收敛速度	收敛慢，迭代次数大	收敛快，迭代次数小	收敛快，迭代次数小
初始值要求	无太强要求，容易逃离鞍点	对初始值有一定要求，非凸问题容易陷入鞍点 (牛顿法步长会越来越小
应用场景	特征维度较大的场景，如特征数 > 10k	特征维度较小的场景	需满足拟牛顿条件，更适合凸问题

在神经网络（非凸问题）的训练中，大多数都采用梯度下降法一族方法。而在训练逻辑回归（凸问题）等模型时，可采用梯度下降和拟牛顿方法。

参考梯度下降法、牛顿法、拟牛顿法三类迭代法应用场景有何差别？

烟雨人长安

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
深度学习为什么使用梯度下降，而不使用牛顿法或拟牛顿法优化？

梯度下降法 (SGD 为例) 牛顿法拟牛顿法时间复杂度(单次迭代) 只需计算 1 阶导，时间复杂度低，为 O(n) 需计算 Hessian 矩阵及其逆，时间复杂度高，为 O(n3) 用正定矩阵近似 Hessian 矩阵的逆，时间复杂度为 O(n2) 收敛速度收敛慢，迭代次数大收敛快，迭代次数小收敛快，迭代次数小初始...
复制链接

扫一扫

专栏目录

烟雨人长安 CSDN认证博客专家 CSDN认证企业博客

码龄7年

51: 原创

3万+: 周排名

7万+: 总排名

17万+: 访问

: 等级

1568: 积分

721: 粉丝

141: 获赞

21: 评论

839: 收藏

私信

关注

热门文章

分类专栏

最新评论

Transformer中Multi-head Attention的作用
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)增加除了各种控件外，文章正文的字数；(3)提升标题与正文的相关性。
常见的面试问题———机器学习篇（持续更新）
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加条理清晰的目录。
Pytorch对NLP的数据进行处理，使用Dataset和Dataloader方法
xz_404: 但是还是没有说明dataset时需要长什么样子，是字典还是列表，一个item到底包含什么字段。
EM算法原理解释及公式推导
qq_42014077: 讲的太好了
Dropout为什么解决过拟合，以及Dropout的缺点
Augety.D: 您好，我想请教一下，提到的两个缺点有什么改进的办法吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。