什么是优化?
optimization 要做些什么?
• Find a 𝜃 to get the lowest Σ𝑥 𝐿(𝜃; 𝑥) !!
• Or, Find a 𝜃 to get the lowest 𝐿(𝜃) !!
符号说明
mt + 1 : 动量
L(θt;x t) : 表示y 和 y^ 之间的差距
On-line vs Off-line
SGD
从θ0 开始,计算其gradient ,然后往反方向走一格
SGDM
Adagrad
当前几个值很大,可能会暴走,加上分母后真好克服这个问题
如果过去的gradient 很大,加上分母后,learning rate就走小步一点(绿色)避免你一下走过了。
同理在gradient 比较小的地方(蓝色比较平的地方),就走大步一点
RMSProp
跟Adagrad 的差别是分母不一样。
确保这个vt不会永无止境的变大。
Adam
Adam need warm-up
NAG
看到未来 超前部署