李宏毅老师的机器学习笔记
课程视频
Gradient Descent
最小化损失函数时采用的Gradient Descent方法
Gradient Descent方法计算过程
Gradient Descent的三个tips
方法一:Tuning your learning rates
每隔几个epoch就降低一些learning rate
一开始,我们离目标很远,所以我们使用了较大的learning rate
经过几个epochs,我们接近了目标,所以我们降低了learning rate
给不同的参数设置不同的learning rate
Adagrad
为不同参数划分不同的learning rate
计算过程
化简结果
是否觉得矛盾?
在只有一个参数时,微分值可以代表距离最低点的距离
在多个参数时,微分值不可以代表距离最低点的距离
the best step is
方法二:Stochastic Gradient Descent
Stochastic Gradient Descent
在Gradient Descent 中,我们计算所有examples后再更新参数
在Stochastic Gradient Descent 中,每计算一个example则更新一次参数
方法二:Feature Scaling
让不同的特征具有相同的缩放程度
特征值 x 1 x_1 x1和 x 2 x_2 x2差别很大,如果采用相同的 w 1 w_1 w1和 w 2 w_2 w2,要走很多步才能到达最低点
将特征值缩放后,则无论从哪里开始,都能比较快的走到最低点
举个例子:此时不同的特征值就缩放成‘同等程度’