对随机梯度下降+mini-batch的理解

最新推荐文章于 2023-10-27 16:13:57 发布

Paul-LangJun

最新推荐文章于 2023-10-27 16:13:57 发布

阅读量536

点赞数

分类专栏：神经网络文章标签：神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gaoxueyi551/article/details/104339241

版权

神经网络专栏收录该内容

45 篇文章 9 订阅

订阅专栏

随机梯度下降的每轮训练包含了多次迭代，每次迭代将训练数据随机分成M份，每次迭代选取一份进行训练，该份数据被称为mini-batch，mini-batch大小可在1 ~ N之间，若为1，则退化为在线学习，训练过程如下。

那mini-bath为何会加速训练？这里我给出一个具有启发式的见解，不见的有理论支撑，但可能有助于理解。如下图

假设我们的训练集只有4个猫的图片，其中不相同的图片只有1对，可能比较极端，但是实际的样本一定程度上也会存在这个问题，假设mini-batch大小为2，可能仅需要第2、3副图片便可完成对模型的训练，因为这两幅图足以反映整个数据集中样本的多样性和差异性，再通过微调学习率，可能仅利用50%的计算量便可使得模型收敛。

在实际的工业级别的模型训练过程中，一轮训练耗时很多，将训练集分为多个mini-batch，通过有限的训练轮数，可能提早穷尽数据集的多样性，使得模型尽早收敛。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
对随机梯度下降+mini-batch的理解

随机梯度下降的每轮训练包含了多次迭代，每次迭代将训练数据随机分成M份，每次迭代选取一份进行训练，该份数据被称为mini-batch，mini-batch大小可在1 ~ N之间，若为1，则退化为在线学习，训练过程如下。那mini-bath为何会加速训练？这里我给出一个具有启发式的见解，不见的有理论支撑，但可能有助于理解。如下图假设我们的训练集只有4个...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。