在单GPU卡大小有限的情况下提高batch_size方案（太小会导致训练不稳定）：①多GPU卡并行运算，统一更新梯度；②梯度累积

最新推荐文章于 2024-07-21 15:13:55 发布

u013250861

最新推荐文章于 2024-07-21 15:13:55 发布

阅读量594

点赞数

分类专栏： LLM 文章标签： batch 深度学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/131152215

版权

LLM 专栏收录该内容

108 篇文章 230 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了在有限GPU内存下如何通过使用大Batch size来提高训练效率，主要介绍了两种方法：数据并行和梯度累积。梯度累积允许在单GPU上通过累积多个小Batch的梯度来模拟大Batch的效果，从而避免内存不足的问题，同时解释了其原理和实现细节。

摘要由CSDN通过智能技术生成

Batch size的作用

训练数据的Batch size大小对训练过程的收敛性，以及训练模型的最终准确性具有关键影响。通常，每个神经网络和数据集的Batch size大小都有一个最佳值或值范围。

不同的神经网络和不同的数据集可能有不同的最佳Batch size大小。

选择Batch size的时候主要考虑两个问题：

泛化性：大的Batch size可能陷入局部最小值。陷入局部最小值则意味着神经网络将在训练集之外的样本上表现得很好，这个过程称为泛化。因此，泛化性一般表示过度拟合。

收敛速度：小的Batch size可能导致算法学习收敛速度慢。网络模型在每个Batch的更新将会确定下一次Batch的更新起点。每次Batch都会训练数据集中，随机抽取训练样本，因此所得到的梯度是基于部分数据噪声的估计。在单次Batch中使用的样本越少，梯度估计准确度越低。换句话说，较小的Batch size可能会使学习过程波动性更大，从本质上延长算法收敛所需要的时间。

考虑到上面两个主要的问题，所以在训练之前需要选择一个合适的Batch size。

Batch size对内存的影响

虽然传统计算机在CPU上面可以访问大量RAM，还可以利用SSD进行二级缓存或者虚拟缓存机制。但是如GPU等AI加速芯片上的内存要少得多。这个时候训练数据Batch size的大小对GPU的内存有很大影响。

为了进一步理解这一点，让我们首先检查训练时候AI芯片内存中内存的内容：</

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
在单GPU卡大小有限的情况下提高batch_size方案（太小会导致训练不稳定）：①多GPU卡并行运算，统一更新梯度；②梯度累积

在单次Batch中使用的样本越少，梯度估计准确度越低。梯度累积就是，每次获取1个batch的数据，计算1次梯度，此时梯度不清空，不断累积，累积一定次数后，根据累积的梯度更新网络参数，然后清空所有梯度信息，进行下一次循环。梯度累积则是只计算神经网络模型，但是并不及时更新网络模型的参数，同时在计算的时候累积计算时候得到的梯度信息，最后统一使用累积的梯度来对参数进行更新。在不更新模型变量的时候，实际上是把原来的数据Batch分成几个小的Mini-Batch，每个step中使用的样本实际上是更小的数据集。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。