稀疏数据[sparse data]和异常值数据[outliers data]的缩放、集中
(一)稀疏数据[sparse data]的Scale centered
1.Sparse数据通常不做centering data,否则会破坏稀疏数据本身的结构
2.Sparse数据通常可以做Scale,如果各种特征处于不同的尺度上
3.Scale函数和StandardScaler函数均可以接受scipy.sparse构造出来的稀疏矩阵,但是参数with_mean = False
4.可以对Sparse数据使用tranform方法,但是不可以使用RobustScaler方法
5.需要严重注意的是Scaler 通常情况接受Compressed Sparse Rows 或者 Compressed Sparse Columns也就是CSR和CSC格式的数据
(二)异常数据[outliers data]的Scale 和 centered
1.异常值feature的缩放和集中通常情况建议使用robust_scale和RobustScale方法
2.对于某些特征尤其是线性相关的特征需要对其进行洗白、集中和缩放,洗白:sklearn.decomposition.PCA with True
3.所有的Scale方法通常都会支1D的数组