特征缩放:瘦长的椭圆,会导致趋向最值时梯度下降的震荡;所以需要缩放特征值,使得其取值范围相近。按经验,特征缩放到3倍或1/3是比较可以接受的。
相关参量调整到相同范围,有助于对最优值的寻找,应该也可以用于 群体智能算法。
从上图左边我们可以看到,由于两个特征值的取值范围相差很多倍(2000:5),导致代价函数是一个瘦高的椭圆,这样进行梯度下降,你会发现很慢甚至一直震荡,缓慢的到达最优解。所以这里我们采用特征缩放,是得每个特征值的取值范围差不多。这样得到的代价函数的等高线就是差不多是一个圆,这样梯度下降就会很快。
缩放可以用:实际值减去平均值除以范围(最大值减最小值)
多元梯度下降法II – 学习率
迭代次数与J的关系示意图:
学习率太大或者太小可能导致的结果:
学习率α的取值要合适,太小太慢,太大适得其反。选取α的经验,从……0.001—>0.01—>0.1—>1……
3倍作为速率筛选过程取值,也是一个很好的思路。