在神经网络的学习中,使用一系列优化算法来尽快的达到最优值。
Mini-Batch
神经网络在处理大的数据集时,因为要遍历所有得数据,所以速度会很慢,为了加快速度,提出了Mini-Batch。
将一个训练集分为若干个微型训练集。
X^{i} 维数(n,m)
Y^{i} 维数(1,m)
能够使算法更快,在训练大数据集时会用到。
如果数据量较小,少于2000,可以采用Batch gradient descent
数据量较大,用Mini-Batch
在使用时,要注意匹配你的cpu和gpu内存,可以是2
得n次方
Momentum
计算梯度得指数加权平均数,并利用该梯度更新你的权重。
在学习得过程中,可以使梯度下降得幅度减小,但是横向得方向加快,从而更快的收敛到最优值。
RMSprop
Adam优化算法
结合了RMSprop和Momentum
计算第一个参数时使用RMSprop,计算第二个参数时使用Momentum
学习率衰减
因为学习率在过大时梯度下降得过程中会振幅过大,所以减小学习率会使梯度下降时振幅小一些。