一、unscaled data可能对数据挖掘产生的副作用:
1、使得数据可视化困难
2、scale差异过大导致不同特征对分类的影响力相差过大,这不一定符合真实情况
3、scale过大的特征使得基于gradient-based estimator收敛缓慢
二、常见scaling 方法及其特点:
以上方法分三类:
(1)标准化方法
由于很多学习方法假设数据集中所有特征的scale相同,所以要先对特征标准化
metric-based and gradient-based estimators often assume approximately standardized data
然而,树学习方法对特征的scale不敏感
decision tree-based estimators that are robust to arbitrary scaling of the data.
StandardScaler
是 outlier-sensitive的.
QuantileTransformer会导致outlier消失
(3)单位化
Normalizer