优化器可以使网络更快的收敛
1、SGD随机梯度下降
缺点:
1.易受样本噪声影响
2.可能陷入局部最优解
2、SGD+Momentum优化器
多了一个动量部分,可以有效抑制样本噪声的干扰
3、Adagrad优化器 (自适应学习率)
缺点:学习率下降的太快,可能还没有收敛就停止训练
4. RMSProp优化器(自适应学习率)
相比起Adagrad可以有效控制学习率的下降速度
5、Adam优化器
优化器可以使网络更快的收敛
1、SGD随机梯度下降
缺点:
1.易受样本噪声影响
2.可能陷入局部最优解
2、SGD+Momentum优化器
多了一个动量部分,可以有效抑制样本噪声的干扰
3、Adagrad优化器 (自适应学习率)
缺点:学习率下降的太快,可能还没有收敛就停止训练
4. RMSProp优化器(自适应学习率)
相比起Adagrad可以有效控制学习率的下降速度
5、Adam优化器