1.1.13. Stochastic Gradient Descent - SGD（随机梯度下降）

最新推荐文章于 2024-05-31 22:42:02 发布

matrix_studio

最新推荐文章于 2024-05-31 22:42:02 发布

阅读量1.5k

点赞数 1

分类专栏：从sklearn学机器学习文章标签：机器学习 sklearn python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/matrix_studio/article/details/121715407

版权

从sklearn学机器学习专栏收录该内容

23 篇文章 29 订阅

订阅专栏

1.1.13. Stochastic Gradient Descent - SGD

在这里插入图片描述

随机梯度下降

“随机梯度下降是一种简单但是效果很好的，用来拟合线性模型的算法。并且，他在那些样本量，特征数量巨大的情况时特别有用。”

为什么这么说呢？我们知道，传统的梯度下降，也就是批量梯度下降，它是依照每一个样本，计算出他们的梯度，再统一更新的。这样，虽然我们得到的梯度会非常准确，下降速度也会很快，但是因为计算梯度是一件很麻烦的事（涉及到逆矩阵的运算），所以求梯度这件事本身会带来很大的影响（即大大增加训练时长）。

所以，为了避免这种情况，缩短训练模型的时间（本质是避免计算大规模样本的梯度的时间和算力的损耗），我们运用近似的思想，每次只选择一个样本，并借助它的梯度来迭代。

虽然，这样会导致（因为每次迭代的方向不是全局最优）

需要更多的迭代次数才能收敛
很可能收敛不到全局最优

但是它的好处也是很明显的：

面对大样本多特征时，整体的速度更快快
会收敛到全局最优附近（这种结果往往可以接受，还能一定程度上防止过拟合）
可以跳出一部分极小值从而使函数收敛到全局最小

sklearn在这一章将它作为一个线性模型来介绍，但是，作为机器学习领域更普遍的算法，他还有很多的应用，具体内容被sklearn放在了有监督学习的第五章。

mini-batch梯度下降

mini-batch梯度下降是批量梯度下降和随机梯度下降的折中，他可以在减少批量梯度下庞大计算量的同时还保证了下降的方向不至于偏离的太厉害。

实际上，随机梯度下降就是mini-batch梯度下降的mini-batch=1时的特殊情况。但在实际运用中，他更多的是作为SGD的一部分出现（可能是因为SGD更有名吧，而且mini-batch确实难听了些）

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1.1.13. Stochastic Gradient Descent - SGD（随机梯度下降）

1.1.13. Stochastic Gradient Descent - SGD随机梯度下降“随机梯度下降是一种简单但是效果很好的，用来拟合线性模型的算法。并且，他在那些样本量，特征数量巨大的情况时特别有用。”为什么这么说呢？我们知道，传统的梯度下降，也就是批量梯度下降，它是依照每一个样本，计算出他们的梯度，再统一更新的。这样，虽然我们得到的梯度会非常准确，下降速度也会很快，但是因为计算梯度是一件很麻烦的事（涉及到逆矩阵的运算），所以求梯度这件事本身会带来很大的影响（即大大增加训练时长）。所以，
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。