梯度下降法
通过遍历全部数据集计算一次损失函数,然后计算各个参数的梯度,从而更新梯度
缺点:每更新一次就需要遍历全部数据,计算量打,运算速度慢,不支持在线学习
随机梯度下降法(SGD)
每看一个数据就计算损失函数,然后计算梯度,更新参数
优点:速度快
缺点:虽然速度快,但收敛性能不太好,可能在最优点附近摆动,无法得出最优点;两次参数的更新也可能相互抵消。
批量(微批)梯度下降法
小批量的梯度下降,数据分为若干个批,按批来更新参数。
一个批中的一组数据共同决定了本次梯度的方向。
优点:下降起来就不容易跑偏,减少了随机性。且计算量相对较小。