梯度下降算法总结 (FG,SG,SAG,mini-batch,Momentum等等)

最新推荐文章于 2024-08-17 23:32:55 发布

Oscar2018

最新推荐文章于 2024-08-17 23:32:55 发布

阅读量1.1w

点赞数 6

分类专栏：作业文章标签： SGD SAG mini-batch 机器学习算法梯度下降

本文链接：https://blog.csdn.net/Oscar2018/article/details/81168603

版权

本文总结了梯度下降算法的四种主要类型：全梯度下降（FG）、随机梯度下降（SG）、随机平均梯度下降（SAG）和小批量梯度下降（mini-batch）。通过对每种算法的介绍和比较，展示了它们在处理大规模数据集时的效率和收敛速度。实验结果显示，SG在训练初期表现出色，而mini-batch在综合考虑迭代次数和运行时间后成为最常用的算法。动量和梯度平均等优化方法也被提及，以改善梯度下降算法的性能。

摘要由CSDN通过智能技术生成

1引言

机器学习是指通过计算机学习数据中的内在规律性信息，获得新的经验和知识，以提高计算机的智能性，使计算机能够像人那样去决策[1]。通常我们在学习一个模型时首先要收集大量关于这个问题的数据，其目标属性作为样本标签是已知的，记为y.其次根据实际问题建立预测模型，预测模型对样本标签的预测为h(x)，显然y与h(x)之间的误差越小越好，这个误差被称为损失函数。因此，机器学习中的许多问题都可以归结为：计算损失函数和的近似最小值问题。

（1）

其中表示训练集的数据，表示训练集所含样本点的个数，表示第个样本点的损失函数，表示所有样本点的平均损失函数[2]。我们要解决的问题是寻找模型中的最优参数使得尽可能的小，梯度下降算法常用于解决此问题。特别的，本文中所讨论的梯度下降算法基于3个前提：针对有限训练集；为光滑函数；是强凸的。

2梯度下降算法

常见的训练学习算法有全梯度下降算法(Full gradient descent），随机梯度下降算法（Stochastic gradient descent），随机平均梯度下降算法（Stochastic average gradient descent）和小批量梯度下降算法（Mini-batch gradient descent）,它们都是为了正确地调节权重向量，通过为每个权重计算一个梯度，从而更新权值，使目标函数尽可能最小化。其差别在于样本的使用方式不同。

2.1全梯度下降算法（FG）

计算训练集所有样本误差，对其求和再取平均值作为目标函数。权重向量沿其梯度相反的方向移动，从而使当前目标函数减少得最多。将全体训练样本的目标函数看做是一种在权重高维空间的丘陵景观，最小化所有样本的目标函数即为寻找丘陵最低洼的地方。负梯度方向表示丘陵这一点的最速下降方向，沿这一方向接近最小值，那里的输出平均损失函数值最低[3]。其迭代形式为

（2）