听课(李宏毅老师的)笔记,方便梳理框架,以作复习之用。本节课主要讲了变化学习率的必要性,几种变化学习率,加入Momentum的Optimization
1. 为什么需要变化的学习率?
因为可能出现震荡现象,即还没到critical point,但是在来回震荡,具体情况请看下图。
如果我们的学习率一直是很大或者很小,就会出现两种情况:
- 震荡
- 更新次数多,耗费时间长
所以我们根本不能用不变的学习率。
2. Root Mean Square(RMS)
引入参数η
η的具体表达式为:
3. RMSProp
前面的RMS的σ中,g1,g2,g3…gi占同等地位,但是RMSProp则可以设定g占不同的重要程度。
4. Adam(RMSProp+Momentum)
采用RMS,但是η不变的话还是可能造成爆炸问题
我们让η也动态调整,在靠近critical point的时候变小
但是不仅有让η变小的这种方法,还可以有warm up的方法(让η先变大再变小)
为什么我也不知道,实验做出来就是这样,老师说还在研究中