最小二乘法和梯度下降法的区别

ETHEL_1123

于 2024-09-15 17:53:22 发布

阅读量56

点赞数

文章标签：最小二乘法算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ETHEL_1123/article/details/142286839

版权

参考：http://t.csdnimg.cn/wMqs2，ChatGTP4的回答（若有侵权请联系删除）

总体概述：

最小二乘法（Ordinary Least Squares, OLS）通过求解目标函数的导数为零的位置，来找到函数的局部最低点，从而确定回归模型的最佳拟合线。

梯度下降法：作为最常见的优化方法，梯度下降法（Gradient Descent）是一种常用的优化算法，用于寻找函数的最小值（或最大值）。它通过迭代更新参数的方式，使目标函数逐渐逼近最优值。

梯度下降法的类型

批量梯度下降（Batch Gradient Descent）：

优点：每次迭代使用整个训练集来计算梯度，收敛稳定，梯度计算平滑。

缺点：计算开销较大，时间长，内存占用高。

适用场景：适用于数据量较小的情况或计算资源充足的情况。

随机梯度下降（Stochastic Gradient Descent, SGD）：

优点：每次迭代仅仅使用单个样本来计算梯度，计算量小；在实际操作中可以立即使用新数据更新；由于每次更新的随机性，有助于跳出局部最优。

缺点：收敛受单个样本影响较大，不稳定；需要迭代次数较多；对学习率敏感。

适用场景：适用于数据量较大的情况和在线学习场景。

3.小批量梯度下降（Mini-batch Gradient Descent）

优点： 相比于 SGD 更新更稳定，相比于批量梯度下降计算量较小；可以利用 GPU 等硬件加速批量运算。

缺点： 仍需较大内存资；源批量大小的选择影响训练效果和效率，通常需要实验调整。

适用场景：适用于大多数应用场景，适合硬件加速（GPU）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。