深度学习优化函数详解（3）-- mini-batch SGD 小批量随机梯度下降

最新推荐文章于 2025-03-21 22:12:32 发布

史丹利复合田

最新推荐文章于 2025-03-21 22:12:32 发布

阅读量3.3w

点赞数 40

分类专栏：深度学习深度学习优化函数详解文章标签：深度学习

本文链接：https://blog.csdn.net/tsyccnh/article/details/76136771

版权

本文详细介绍了小批量随机梯度下降法（mini-batch SGD），作为对梯度下降法和随机梯度下降法的改进，它在保持训练稳定性的同时提高了效率。通过公式推导和实验对比，展示了mini-batch SGD在降低loss波动和减少计算资源上的优势。在深度学习实践中，mini-batch SGD已成为默认的优化方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习优化函数详解系列目录

本系列课程代码，欢迎star：
https://github.com/tsycnh/mlbasic

深度学习优化函数详解（0）-- 线性回归问题
 深度学习优化函数详解（1）-- Gradient Descent 梯度下降法
 深度学习优化函数详解（2）-- SGD 随机梯度下降
 深度学习优化函数详解（3）-- mini-batch SGD 小批量随机梯度下降
 深度学习优化函数详解（4）-- momentum 动量法
 深度学习优化函数详解（5）-- Nesterov accelerated gradient (NAG)
深度学习优化函数详解（6）-- adagrad

本文延续该系列的上一篇深度学习优化函数详解（2）-- SGD 随机梯度下降

上一篇我们说到了SGD随机梯度下降法对经典的梯度下降法有了极大速度的提升。但有一个问题就是由于过于自由导致训练的loss波动很大。那么如何可以兼顾经典GD的稳定下降同时又保有SGD的随机特性呢？于是小批量梯度下降法, mini-batch gradient descent 便被提了出来。其主要思想就是每次只拿总训练集的一小部分来训练，比如一共有5000个样本，每次拿100个样本来计算loss，更新参数。50次后完成整个样本集的训练，为一轮（epoch）。由于每次更新用了多个样本来计算loss，就使得loss的计算和参数的更新更加具有代表性。不像原始SGD很容易被某一个样本给带偏。loss的下降更加稳定，同时小批量的计算，也减少了计算资源的占用。