梯度下降法、牛顿法、拟牛顿法三类迭代法应用场景有何差别？

最新推荐文章于 2024-01-08 01:24:14 发布

落木~

最新推荐文章于 2024-01-08 01:24:14 发布

阅读量3.4k

点赞数

分类专栏： Machine Learning 文章标签：优化方法梯度下降法和牛顿法

本文链接：https://blog.csdn.net/a786150017/article/details/86350124

版权

本文探讨了梯度下降法、牛顿法和拟牛顿法在机器学习中的应用场景差异。梯度下降法常用于神经网络训练，特别是非凸问题；牛顿法和拟牛顿法适用于凸问题如逻辑回归，其中牛顿法利用二阶导数信息，拟牛顿法通过近似海森矩阵实现。时间复杂度和收敛速度的差异源于求解方法的不同。

摘要由CSDN通过智能技术生成

梯度下降法、牛顿法、拟牛顿法三类迭代法应用场景有何差别？

By Datawhale知乎内容输出小组D1

问题

梯度下降法一族（如SGD、Adam）、牛顿法一族（如Gauss-Newton Method，LM法）、拟牛顿法一族（如L-BFGS）是机器学习中最常见的三大类迭代法，但三者分别通常擅长解决的应用场景是什么？为什么会这样的呢？谢谢

解答

	梯度下降法(SGD为例)	牛顿法	拟牛顿法
时间复杂度(单次迭代)	只需计算1阶导，时间复杂度低，为 $O\left( n \right)$	需计算Hessian矩阵及其逆，时间复杂度高，为 $O\left( { {n^3}} \right)$	用正定矩阵近似Hessian矩阵的逆，时间复杂度为 $O\left( { {n^2}} \right)$
收敛速度	收敛慢，迭代次数大	收敛快，迭代次数小	-
初始值要求	无太强要求，容易逃离鞍点	对初始值有一定要求，非凸问题容易陷入鞍点(牛顿法步长会越来越小)	-
应用场景	特征维度较大的场景，如特征数>10k	特征维度较小的场景	需满足拟牛顿条件，更适合凸问题

此外，在神经网络（非凸问题）的训练中，大多数都采用梯度下降法一族方法。而在训练逻辑回归（凸问题）等模型时，可采用梯度下降和拟牛顿方法。

关于时间复杂度和收敛速度的差异，起因于求解方法：

机器学习的任务中，是要最小化损失函数 $L\left( \theta \right)$ ，其中 $\theta$ 是待求的模型参数。梯度下降法、牛顿法/拟牛顿法都是迭代求解。梯度下降法是梯度求解，而牛顿法/拟牛顿法是用二阶的海森矩阵的逆矩阵或伪逆矩阵求解。

迭代公式 ${\theta ^t} = {\theta ^{t - 1}} + \Delta \theta$

求解方法
梯度下降法：一阶泰勒展开
$\begin{aligned} L\left( { {\theta ^t}} \right) &= L\left( { {\theta ^{t - 1}} + \Delta \theta } \right) \\ &\approx L\left( { {\theta ^{t - 1}}} \right) + L'\left( { {\theta ^{t - 1}}} \right)\Delta \theta \end{aligned}$

最低0.47元/天解锁文章

落木~

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
梯度下降法、牛顿法、拟牛顿法三类迭代法应用场景有何差别？

梯度下降法、牛顿法、拟牛顿法三类迭代法应用场景有何差别？By Datawhale知乎内容输出小组D1问题：梯度下降法一族（如SGD、Adam）、牛顿法一族（如Gauss-Newton Method，LM法）、拟牛顿法一族（如L-BFGS）是机器学习中最常见的三大类迭代法，但三者分别通常擅长解决的应用场景是什么？为什么会这样的呢？谢谢解答：梯度下降法(SGD为例)牛顿法拟牛...
复制链接

扫一扫