一、机器学习中,为什么经常要对数据做归一化处理?
维基百科的回答:(1)归一化后加快了梯度下降求最优解的速度;(2)归一化有可能提高精度。
- 归一化为什么能提高梯度下降法求解最优解的速度?
如下图所示,蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大,区间是[0,2000],
区间是[1,5],其所形成的等高线非常尖。当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收敛;而右边的图对两个原始特征进行了归一化,其对应的等高线显得很圆,在梯度下降进行求解时能较快的收敛。
因此如果机器学习模型使用梯度下降法求最优解时,归一化往往非常有必要,否则很难收敛甚至不能收敛。
2、归一化有可能提高精度
一些分类器需要计算样本之间的距离(如欧氏距离)&#