mini-batch梯度下降

最新推荐文章于 2024-07-29 15:57:11 发布

legend_hua

最新推荐文章于 2024-07-29 15:57:11 发布

阅读量7.3k

点赞数 2

分类专栏：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/legend_hua/article/details/80633525

版权

本文介绍了传统full-batch梯度下降的局限性，特别是对于大规模数据集训练速度缓慢的问题。接着，重点讨论了mini-batch梯度下降，它在1和所有训练数据之间选择batch size进行训练，尽管导致loss有噪声，但能更快收敛。此外，还对比了SGD、mini-batch和BGD的优缺点。

摘要由CSDN通过智能技术生成

一、背景

传统的梯度下降，每次梯度下降都是对所有的训练数据进行计算平均梯度，这种梯度下降法叫做full-batch梯度下降法。考虑一种情况，当训练数据量在千万级别时，一次迭代需要等待多长时间，会极大的降低训练速度。

每次训练的使用同一份数据，所以loss的损失函数会是一直下降的，收敛到的是全局最优解。

二、mini-batch梯度下降

如果选择介于1和最大训练数据量之间的一个bath size数据量进行训练，叫mini-batch 梯度下降。

每次训练的不能保证使用的是同一份数据，所以每一个batch不能保证都下降，整体训练loss变化会有很多噪声，但是整体趋势是下降的，随后会在最优值附近波动，不会收敛。

三、比较

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。