数据预处理之scaling

一、unscaled data可能对数据挖掘产生的副作用:

1、使得数据可视化困难


2、scale差异过大导致不同特征对分类的影响力相差过大,这不一定符合真实情况


3、scale过大的特征使得基于gradient-based estimator收敛缓慢


二、常见scaling 方法及其特点:

sklearn 提供了多种特征scale方法,
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import minmax_scale
from sklearn.preprocessing import MaxAbsScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import RobustScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing.data import QuantileTransformer

以上方法分三类:

(1)标准化方法

由于很多学习方法假设数据集中所有特征的scale相同,所以要先对特征标准化

metric-based and gradient-based estimators often assume approximately standardized data


然而,树学习方法对特征的scale不敏感

decision tree-based estimators that are robust to arbitrary scaling of the data.


StandardScaler 是 outlier-sensitive的.


(2)分位数方法

QuantileTransformer会导致outlier消失



(3)单位化

Normalizer




  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值