梯度下降法和牛顿法的比较

最新推荐文章于 2023-10-19 11:42:07 发布

predawnl

最新推荐文章于 2023-10-19 11:42:07 发布

阅读量536

点赞数

原文链接：https://www.jianshu.com/p/d892d0d13b6d

版权

梯度下降和牛顿法的推导均与泰勒公式有关，所以先介绍泰勒展开公式：
基本形式：

上面这个迭代形式将应用到下面的梯度下降和牛顿法中。

一、梯度下降

梯度下降法应用一阶泰勒展开，假设L(θ)代表损失函数，目标：最小化损失函数，θ是需要更新的模型参数。下面公式中alpha是步长(学习率)，可以直接赋值一个小的数，也可以通过line search。

二、牛顿法

牛顿法应用二阶泰勒展开，目标：最小化损失函数

优缺点对比：

1.梯度下降法：通过梯度方向和步长，直接求解目标函数最小值时的参数。
越接近最优值时，步长应该不断减小，否则会在最优值附近来回震荡。
2.牛顿法：
优点：通过求解目标函数的一阶导数为0时的参数，进而求出目标函数最小值时的参数。收敛速度很快。

牛顿法：二阶收敛，梯度下降：一阶收敛，所以牛顿法更快。
比如想找一条最短的路径走到一个盆地的最底部，梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步，牛顿法在选择方向时，不仅会考虑坡度是否够大，还会考虑你走了一步之后，坡度是否会变得更大。所以，牛顿法比梯度下降法看得更远一点，能更快地走到最底部。（牛顿法目光更长远，所以少走弯路；梯度下降法只考虑局部最优，没有全局思想。）

从几何说，牛顿法是用一个二次曲面拟合你当前所处位置的局部曲面，梯度下降法是用一个平面去拟合当前局部曲面，通常情况下，二次曲面的拟合会比平面更好，所以牛顿法选择的下降路径会更符合真实的最优下降路径。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
梯度下降法和牛顿法的比较

梯度下降和牛顿法的推导均与泰勒公式有关，所以先介绍泰勒展开公式：基本形式：上面这个迭代形式将应用到下面的梯度下降和牛顿法中。一、梯度下降梯度下降法应用一阶泰勒展开，假设L(θ)代表损失函数，目标：最小化损失函数，θ是需要更新的模型参数。下面公式中alpha是步长(学习率)，可以直接赋值一个小的数，也可以通过line search。二、牛顿法牛顿法应用二阶泰勒展开，目标：...
复制链接

扫一扫

predawnl CSDN认证博客专家 CSDN认证企业博客

码龄5年

1: 原创

123万+: 周排名

46万+: 总排名

3581: 访问

: 等级

47: 积分

1: 粉丝

0: 获赞

1: 评论

7: 收藏

私信

关注

热门文章

最新评论

JAVA面试题一些整理（持续更新）
CSDN-Ada助手: 非常感谢CSDN博主分享的《JAVA面试题一些整理（持续更新）》，我觉得这篇文章对于想要进入JAVA开发领域的人来说非常有帮助。作为博主，你可以考虑继续写一些关于JAVA开发的实战经验，比如如何使用Spring Boot开发Web应用、如何使用Mybatis进行数据持久化等等。这样的技术文章对于其他用户来说也是非常有益的。相信你的下一篇文章会有更多的读者关注和学习。期待你的新作品！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。