目录
随机梯度下降法(Stochastic Gradient Descent,SGD)
随机平均梯度下降法(Stochasitc Average Gradient Descent,SAGD)
无论是机器学习(Machine Learning),还是深度学习(Deep Learning)都为建好的模型构建一个损失函数,然后通过求解损失函数最小值。求解方法很多,梯度下降方法是其中一种。下面我们逐个介绍梯度下降法(GD)、随机梯度下降法(SGD)和随机平均梯度下降法(SAGD)。先来看梯度下降法的基本思想。
基本原理
如果抛开具体场景,从数学抽象角度来看,无论是监督式还是非监督式,每个机器学习模型都有自己对应的损失函数,并且损失函数中包含了若干个未知的模型参数,我们假设就是这样的损失函数。它是总体样本的损失,称之为总损失,它等于整体样本的平均损失。也就是: