https://blog.csdn.net/shwan_ma/article/details/80154888
https://www.jianshu.com/p/95a8f035c86c
什么时候对数据中心化呢
在聚类过程中,标准化显得尤为重要。这是因为聚类操作依赖于对类间距离和类内聚类之间的衡量。如果一个变量的衡量标准高于其他变量,那么我们使用的任何衡量标准都将受到该变量的过度影响。
在PCA降维操作之前。在主成分PCA分析之前,对变量进行标准化至关重要。 这是因为PCA给那些方差较高的变量比那些方差非常小的变量赋予更多的权重。而 标准化原始数据会产生相同的方差,因此高权重不会分配给具有较高方差的变量
KNN操作,原因类似于kmeans聚类。由于KNN需要用欧式距离去度量。标准化会让变量之间起着相同的作用。
在SVM中,使用所有跟距离计算相关的的kernel都需要对数据进行标准化。
在选择岭回归和Lasso时候,标准化是必须的。原因是正则化是有偏估计,会对权重进行惩罚。在量纲不同的情况,正则化会带来更大的偏差。
什么时候不需要标准化
当采用普通的线性回归的时候,是无需标准化的。因为标准化前后,不会影响线性回归预测值。
同时,标准化不会影响logistic回归,决策树及其他一些集成学习算法:such as random forest and gradient boosting.