1.SGD(根据使用批次样本的不同分为批量BGD、小批量MBGD、随机SGD):
2.动量角度改进方法(类似于行程更新由速度和时间得到,而速度由加速度和时间得到,包括
sgdm和NAG):
- SGDM(速度由上一时刻速度和当前时刻加速度加权得到):
- NAG(速度由上一时刻速度和下一时刻加速度加权得到):
3.学习率角度改进方法:
- AdaGrad:G_t是一个对角矩阵,其对角线元素 (i,i) 位置的值 Gt,ii 表示从时
1.SGD(根据使用批次样本的不同分为批量BGD、小批量MBGD、随机SGD):
2.动量角度改进方法(类似于行程更新由速度和时间得到,而速度由加速度和时间得到,包括
sgdm和NAG):
3.学习率角度改进方法: