黄博的针对吴恩达老师深度学习课程(deeplearning.ai) 视频做的笔记
今日学习第二门课第二周,大有收获,再接再厉
记录一下要点:
1. batch gradient descent与mini gradient descent相比,在样本量不超过两千的情况下,可不分批,如分批,数据量可在64-512或者128(2的n次方,更快)左右。
2. mini batch = 1 的时候,为随机梯度下降,到最优点附近徘徊,可缩小学习率
3. 指数加权平均数,对一段时间内的数据进行平均(看起来像是平滑),越往前的权重越低,并且展开后呈指数形式,故得名
4. 偏差修正,因为指数加权平均以0开始,所以前几天(项)可能误差较大,故除以(1-beta_power_t),beta是接近小于1的数,前几项的时候分母较小,可以提高前几项的值,而t很大的时候,分母接近1,近似于无,可参考笔记189页底部。
5. 动量梯度下降:
6. RMSprop:
7. 重头戏,Adam,同时应用momentum和RMSprop:
以上三项,懂即可,不用花时间再看