随机梯度下降与梯度下降的区别？

最新推荐文章于 2024-06-18 17:00:00 发布

司南牧

最新推荐文章于 2024-06-18 17:00:00 发布

阅读量4.6k

点赞数 10

分类专栏：适合初学者的机器学习理论与实践

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/varyshare/article/details/99704791

版权

本文探讨随机梯度下降与梯度下降的区别，解释两种方法在更新参数上的差异，并通过实例说明。梯度下降通过考虑所有样本的导数累加更新参数，而随机梯度下降则每次仅使用一个样本的导数进行更新。此外，还提到了随机梯度下降的动量优化策略。

摘要由CSDN通过智能技术生成

如果你还不了解梯度下降请参考：知乎@Ai酱：{高中生能看懂的}梯度下降是个啥？。

随机梯度下降与梯度下降之间有什么区别？

假设你已经懂了梯度下降的原理与公式。接下来我会举个例子来讲随机梯度下降与梯度下降的区别。
假如损失（误差）函数对参数w的导数是 $x (w x - l a b e l)$ ，然后我们需要更新的参数是 $w$ ，学习率是 $\alpha$ 。
现在有一堆数据 ${(x_1,label_1),(x_2,label_2),(x_i,label_i),(x_n,label_n)}$

最低0.47元/天解锁文章

关注

10
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
随机梯度下降与梯度下降的区别？

如果你还不了解梯度下降请参考：知乎@Ai酱：{高中生能看懂的}梯度下降是个啥？。随机梯度下降与梯度下降之间有什么区别？假设你已经懂了梯度下降的原理与公式。接下来我会举个例子来讲随机梯度下降与梯度下降的区别。假如损失（误差）函数对参数w的导数是x(wx−label)x(wx - label)x(wx−label)，然后我们需要更新的参数是www，学习率是α\alphaα。现在有一堆数据(x1...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。