最近在看李航的统计学习方法,看到第二章感知机,中间阐述了感知机学习问题转化为求解损失函数的最优化问题,这里最优化的方法是采用随机梯度下降法,为了后面系统的复习,以后会记录一些笔记,这里先记录随机梯度下降法的优缺点。
随机梯度下降法(SGD)的优点包括训练速度快、适用于大规模数据集、可以跳出局部最优解,而缺点则主要包括更新不稳定、可能陷入局部最优解、需要调整学习率。
-
优点:
- 训练速度快:SGD每次只需要计算一个样本的梯度,因此训练速度非常快,尤其适用于大规模数据集。
- 可适用于大规模数据集:由于SGD的训练速度很快,因此它对于大规模数据集也很适用。
- 可以跳出局部最优:由于SGD每次只考虑一个样本,因此更容易跳出局部最优点,从而找到全局最优解。
-
缺点:
- 更新不稳定:由于SGD只考虑一个样本,因此每次更新都有一定的随机性,导致更新不稳定。
- 容易陷入局部最优:虽然SGD容易跳出局部最优,但是由于随机性的影响,也容易陷入局部最优点。
- 需要调整学习率:SGD的收敛速度很快,但是需要调整学习率,否则可能导致模型无法收敛或收敛速度过慢。
SGD的这些优缺点在实际应用中需要权衡。虽然SGD在训练速度和大规模数据集处理上表现出色,但其不稳定性和可能陷入局部最优的问题需要通过合适的超参数设置和可能的算法改进(如Momentum SGD和Adam等)来克服。