稀疏数据[sparse data]和异常值数据[outliers data]的缩放、集中

稀疏数据[sparse data]和异常值数据[outliers data]的缩放、集中

(一)稀疏数据[sparse data]的Scale centered

1.Sparse数据通常不做centering data,否则会破坏稀疏数据本身的结构

2.Sparse数据通常可以做Scale,如果各种特征处于不同的尺度上

3.Scale函数和StandardScaler函数均可以接受scipy.sparse构造出来的稀疏矩阵,但是参数with_mean = False

4.可以对Sparse数据使用tranform方法,但是不可以使用RobustScaler方法

5.需要严重注意的是Scaler 通常情况接受Compressed Sparse Rows 或者 Compressed Sparse Columns也就是CSR和CSC格式的数据

(二)异常数据[outliers data]的Scale 和 centered

1.异常值feature的缩放和集中通常情况建议使用robust_scale和RobustScale方法

2.对于某些特征尤其是线性相关的特征需要对其进行洗白、集中和缩放,洗白:sklearn.decomposition.PCA with True

3.所有的Scale方法通常都会支1D的数组

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值