深度模型优化与正则化:
-
网络优化
目的:经验风险最小化。对于低维来说,目的是逃离局部最优点;对于高维来说,则是逃离鞍点。 -
梯度下降
批量梯度下降、小批量梯度下降、随机批量梯度下降。
-
学习率
流程:学习率预热、学习率衰减、学习率周期调整、自适应学习率。
1)学习率预热:
2)学习率衰减
3)周期性学习率调整
深度模型优化与正则化:
网络优化
目的:经验风险最小化。对于低维来说,目的是逃离局部最优点;对于高维来说,则是逃离鞍点。
梯度下降
批量梯度下降、小批量梯度下降、随机批量梯度下降。
学习率
流程:学习率预热、学习率衰减、学习率周期调整、自适应学习率。
1)学习率预热:
2)学习率衰减
3)周期性学习率调整