优点:在梯度下降法的求解过程中,只需求解损失函数的一阶导数,计算的代价比较小,这使得梯度下降法能在很多大规模数据集上得到应用。
缺点:在远离极小值的地方下降很快,而在靠近极小值的地方下降很慢。
随机梯度下降SGD:
优点:训练速度快;
缺点:准确度下降,并不是全局最优;不易于并行实现。即:会丢失很多训练集的信息,可能不能达到最优解,只能达到局部最优解
批量梯度下降法BGD (全局梯度下降):针对的是整个数据集,通过对所有的样本的计算来求解梯度的方向。
优点:全局最优解;易于并行实现;
缺点:当样本数目很多时,训练过程会很慢。
小批量梯度下降法MBGD(mini-batch):上面两种的折中,效果不错.