随机梯度下降（SGD）

最新推荐文章于 2024-07-31 14:47:45 发布

Durant_kevin

最新推荐文章于 2024-07-31 14:47:45 发布

阅读量1.1w

点赞数 3

分类专栏：机器学习与数据挖掘文章标签：随机梯度下降 SGD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010367506/article/details/38052203

版权

本文介绍了随机梯度下降（SGD）在大规模数据集上优化模型的优势，对比了它与传统梯度下降的区别。SGD通过每次使用单个样本的损失函数求偏导更新参数，加快了收敛速度。文章探讨了SGD的迭代收敛条件，并提出不建议使用损失函数值或参数变化微小作为判断标准，而是推荐通过控制迭代次数来终止迭代。

摘要由CSDN通过智能技术生成

关于什么是梯度下降，请看我之前发的一个博文：http://blog.csdn.net/lilyth_lilyth/article/details/8973972

梯度下降能帮助我们找到局部最优值，取得很小的损失，但是在数据量达到数十万时，迭代次数高，运算速度慢，十分不适合。这时候可以考虑使用随机梯度下降算法。

所谓随机梯度下降是每次用每个样本的损失函数（即样本数为1时的损失函数）对theta求得的偏导，来跟新theta值。

对梯度下降中的例子我们采取随机梯度下降来解：

第i个样本数据为Xi,对应单个损失函数对theta的偏导数为：

算法伪代码：

for i=1 to m{
   theta_j=theta_j-gamma*grad_i;(for every j)
}

最低0.47元/天解锁文章

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。