Full-batch Training、Mini-batch Training、Stochastic Training (SGD)

最新推荐文章于 2025-03-20 22:30:38 发布

重剑DS

最新推荐文章于 2025-03-20 22:30:38 发布

阅读量447

点赞数 4

分类专栏：深度学习文章标签：人工智能机器学习训练

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45732909/article/details/136993540

版权

本文探讨了全批量训练方法在神经网络训练中的特点，如低效性和内存需求大，与Mini-batch和StochasticGradientDescent（SGD）方法进行了对比，强调了后者在收敛速度和稳定性方面的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述：
Full-batch 训练方法是一种在训练神经网络时使用的方法，其中每次更新模型参数都是在整个训练数据集上计算损失和梯度之后进行的。简单来说，它使用所有的训练数据来进行一次参数更新。这与其他训练方法如mini-batch或stochastic训练相对，后者只使用数据集的一部分或一个样本来更新参数。

Full-batch，全批量训练的特点包括：

Inefficiency:
对于大型数据集，全批量训练可能导致梯度下降收敛缓慢，因为参数只在每个周期（epoch）结束时更新一次。每次参数更新都需要在整个数据集上计算损失和梯度，这可能非常耗时。
Poor Scalability:
全批量方法在每次更新中都需要计算整个图的中间嵌入，这导致了巨大的内存需求，因此难以扩展到大规模图数据。当图数据非常大时，可能会因为内存限制而无法一次加载整个图。

Mini-batch Training: 其中数据集被分割成多个小批量（mini-batches）。每个小批量包含数据集的一部分。在每次迭代中，只有一个小批量的数据被用来计算损失和更新参数。这种方法可以更频繁地更新参数，从而可能加快收敛速度，并且可以更好地扩展到大数据集。

Stochastic Training (SGD): 在随机梯度下降中，每个样本或几个样本被用来立即进行参数更新。这意味着参数在每个数据点后都会更新，而不是在整个数据集处理完后更新。这通常会导致快速但波动的收敛过程。

Mini-batch training 和 Stochastic Gradient Descent (SGD) 确实非常相似，因为它们都是梯度下降的变体，用于训练神经网络。它们的

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

重剑DS 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。