Stochastic Gradient Descent (SGD) 原理与代码实战案例讲解
关键词:
- SGD(随机梯度下降)
- 最小化损失
- 迭代优化
- 机器学习
- 深度学习
1. 背景介绍
1.1 问题的由来
在机器学习和深度学习领域,优化算法用于最小化模型预测与实际结果之间的误差,也就是损失函数。最小化损失是许多算法的核心目标,而梯度则是指引我们向损失最小化方向前进的方向标。
1.2 研究现状
梯度下降法是最基本的优化方法之一,其目的是找到损失函数的局部最小值。批量梯度下降(BGD)在每次迭代时使用整个数据集来计算梯度,平均梯度给出全局视图,但在大数据集上计算成本高。随机梯度下降(SGD)则选择数据集中的单