目录
Optimization
what is optimization
content
找到一个合适的参数的θ,使得L(θ)损失函数值最小
some notations
一些参数的含义如下所示
SGD
SGDM
SGD是梯度下降的算法,而SGDM中M代表momentum动量的意思。简而言之是在梯度下降的时候加上了一个向前冲的趋势,有利于摆脱梯度突然下降到局部最小值的点。(他不仅包含了上一步的梯度,还包括之前的趋势。)
RMSProp
Adam
Adam包含了前两者的特点
How to improve
Adam
速度快,但是不稳定。
SGDM
稳定,结果好,但是训练速度比较慢。
Lookahead
梯度下降的时候,走几步会退回来检查是否方向正确。避免突然掉入局部最低点。
AdamW SGDWM
这个是针对adam和sgdm各自的问题,有一定应用的改进
Something helps optimization
Normalization
Regularization
Warm up
Curriculum learning
Fine-tuning