在梯度下降算法中,我们需要对特征进行归一化处理,消除数据特征之间的量纲影响,那么为什么我们必须对数据特征进行归一化呢?
以二元线性回归分析为例,线性方程为 h θ ( x ) = θ 1 x 1 + θ 2 x 2 + θ 0 h_{\theta }(x)=\theta _{1}x_{1}+\theta _{2}x_{2}+\theta _{0} hθ(x)=θ1x1+θ2x2+θ0, x 1 x_{1} x1的取值范围为 [0, 100], x 2 x_{2} x2 的取值范围为[0, 1],假设 x 1 x_{1} x1</