一起理解batch、epoch及batch size的设定

SpaceSunflower

已于 2024-01-20 17:12:12 修改

阅读量1k

点赞数 24

分类专栏： Deep Learning 文章标签： batch 机器学习开发语言

于 2023-12-11 16:32:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BeTyh/article/details/134930234

版权

Deep Learning 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

⭐epoch

一个完整的数据集通过神经网络一次并返回一次，这个过程称为一个epoch；

所有训练样本在神经网络经过一次正向传播和一次反向传播；

总的来说：一个Epoch就是将所有训练样本训练一次的过程。

然而，当一个Epoch的样本（也就是所有的训练样本）数量可能太过庞大（对于计算机而言），就需要把它分成多个小块，也就是就是分成多个Batch 来进行训练。

⭐Batch

将整个训练样本分成若干个Batch；

⭐Batch_size

每批样本的大小；一次iteration所选取的样本数。

Batch Size的大小影响模型的优化程度和速度。同时其直接影响到GPU内存的使用情况，假如GPU内存不大，该数值最好设置小一点。

⭐Iteration

一次迭代，训练一个Batch就是一次迭代的过程；

⭐Batch Size从小到大的变化对网络影响

1、没有Batch Size，梯度准确，只适用于小样本数据库

2、Batch Size=1，梯度变来变去，非常不准确，网络很难收敛。

3、Batch Size增大，梯度变准确，

4、Batch Size增大，梯度已经非常准确，再增加Batch Size也没有用

注意：Batch Size增大了，要到达相同的准确度，必须要增大epoch。

GD（Gradient Descent）：就是没有利用Batch Size，用基于整个数据库得到梯度，梯度准确，但数据量大时，计算非常耗时，同时神经网络常是非凸的，网络最终可能收敛到初始点附近的局部最优点。

SGD（Stochastic Gradient Descent）：就是Batch Size=1，每次计算一个样本，梯度不准确，所以学习率要降低。

⭐mini-batch SGD：就是选着合适Batch Size的SGD算法，mini-batch利用噪声梯度，一定程度上缓解了GD算法直接掉进初始点附近的局部最优值。同时梯度准确了，学习率要加大。

为什么要使用多于一个epoch

在神经网络中传递完整的数据集一次是不够的，而且我们需要将完整的数据集在同样的神经网络中传递多次。但请记住，我们使用的是有限的数据集，并且我们使用一个迭代过程即梯度下降来优化学习过程。如下图所示。因此仅仅更新一次或者说使用一个epoch是不够的。

随着epoch数量增加，神经网络中的权重的更新次数也在增加，曲线从欠拟合变得过拟合。

那么，到底多少个epoch最合适，这个问题没有正确答案，对于不同的数据集，答案都不相同。

为什么要用batch_size

在没有使用Batch Size之前，这意味着网络在训练时，是一次把所有的数据（整个数据库）输入网络中，然后计算它们的梯度进行反向传播，由于在计算梯度时使用了整个数据库，所以计算得到的梯度方向更为准确。但在这情况下，计算得到不同梯度值差别巨大，难以使用一个全局的学习率，所以这时一般使用Rprop这种基于梯度符号的训练算法，单独进行梯度更新。

在小样本数的数据库中，不使用Batch Size是可行的，而且效果也很好。但是一旦是大型的数据库，一次性把所有数据输进网络，肯定会引起内存的爆炸。所以就提出Batch Size的概念。

增大batch size通常会导致每个epoch处理的样本数量增多，这样模型在更新参数时会更加稳定，减少参数更新的次数，提高训练效率。但是，同时增大batch size也可能导致内存不足，训练速度减慢，甚至性能下降。为了保持训练效果，你可能需要增加epoch的数量，确保模型能够看到足够多的数据。总的来说，调整batch size和epoch的关系需要综合考虑计算资源、模型性能以及训练效果等因素。

参考：
https://zhuanlan.zhihu.com/p/390341772

关注

24
点赞
踩
28

收藏

觉得还不错? 一键收藏
打赏
0
评论
一起理解batch、epoch及batch size的设定

【一起理解】batch、epoch及batch size的设定
复制链接

扫一扫

专栏目录

SpaceSunflower CSDN认证博客专家 CSDN认证企业博客

码龄4年

22: 原创

29万+: 周排名

20万+: 总排名

2万+: 访问

: 等级

537: 积分

213: 粉丝

285: 获赞

16: 评论

305: 收藏

私信

关注

热门文章

分类专栏

最新评论

Batch Normailzation and Layer Normalization
CSDN-Ada助手: 恭喜您撰写了这篇关于“Batch Normailzation and Layer Normalization”的博客！您对这两种规范化方法的深入探讨让我受益匪浅。希望您能继续分享关于深度学习和神经网络方面的知识，也许可以考虑写一些实际应用案例或者是对新兴技术的探索。期待您的下一篇精彩文章！
YoloV2：Faster、Stronger --网络结构 --工程化技巧使用
CSDN-Ada助手: 恭喜作者对Yolo V2进行深入研究并分享了这篇精彩的博客！不过在阅读过程中，我希望能够更多地了解到作者在工程化技巧使用方面的心得体会，这对于我们这些初学者来说会非常有帮助。期待作者在下一篇博客中能够分享更多关于工程化技巧的实用经验，谢谢！
SVM原理分析 --数理逻辑回顾 --浙大胡浩基老师课程复盘
CSDN-Ada助手: 非常感谢您分享关于SVM原理分析和数理逻辑的内容，这些都是非常有价值的知识。恭喜您已经写了第20篇博客，持续创作是非常了不起的成就！在接下来的创作中，或许可以考虑结合实际案例或者应用场景，让读者更好地理解这些理论知识在实际中的应用。同时也可以多借鉴一些相关领域的最新研究成果，不断丰富自己的知识体系。期待您更多精彩的创作！
SVM支持向量机浙江大学胡浩基课程笔记 -SVM原理 -优化过程 -核函数 -兵王问题应用
CSDN-Ada助手: 非常感谢您分享关于SVM的课程笔记，文章内容丰富，对SVM原理、优化过程、核函数等进行了详细的介绍，让我受益匪浅。希望您能继续保持创作的热情，不断分享更多关于机器学习领域的知识和经验。或许在下一篇博客中，可以分享一些实际案例或者对SVM在实际问题中的应用经验，这样可以更好地帮助读者理解和应用相关知识。期待您的下一篇精彩内容，谢谢！
一起理解指标ACC、Precision、Recall、F1、FPPI、MissRate(MR)、Macro-F1、Micro-F1
CSDN-Ada助手: 恭喜你写了这么有深度的一篇博客！对于理解指标，你的解释非常清晰，让我受益匪浅。不过，我觉得下一步你可以考虑增加一些实际案例或者应用场景，这样读者更容易将理论知识和实际应用联系起来。期待你的下一篇文章！加油！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

SpaceSunflower 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。