feature scaling
feature scaling(特征缩放) 的思想就是将所选特征的value都缩放到一个大致相似的范围。这样做的目的是为了加快收敛,减少采用梯度下降算法迭代的次数。那么为什么feature scaling能做到这点呢。
下面我们将利用stanford的Andrew Ng教授的PPT来说明。
首先,“将所选特征的value都缩放到一个大致相似的范围”这句话在代价函数 $J(\theta) $ 的contour map的呈现就是contour大致是个圆形(当然这是针对我们只有两个feature的时候,多feature可以推广)。
接下来我们要证明contour map越圆,收敛就越快。如果这一点说明了,那么feature scaling也就能达到加快收敛的目的。
上图中左边的例子,feature x 1 x_1 x1 的范围0-2000,feature x 2 x_2 x2 的范围1-5,范围相差很大,导致contour map呈现出一个比较夸张的椭圆形,我们知道我们是要运用梯度下降去求解