机器学习——特征预处理,降维

数据预处理 归一化/标准化


进行归一化的原因


 

原理 

 

将其转化为统一的零到一标准feature_range=(0,1) 

 

from sklearn.preprocessing import  MinMaxScaler

transfer=MinMaxScaler()

data_new=transfer.fit_transform(data)

print(‘‘data_new:\n’’,data_new)

 

 数据都在0到1区间内


 

标准化的原因

减少异常点带来的误差

x_new=(x-mean)/std


 

 

都在均值为零标准差为一附近 


 

降维

降低特征的个数

降维的两种方式:特征选取,主成分分析

特征选择

Filtter过滤式:方差选择法,相关系数法

方差选择法

删除低方差特征 

阈值越大被删除的数越多(VarianceThreshold()中的参数默认为零) 


相关系数法 

 

 

 主成分分析

高位数据转化为低维数据的过程,可能会舍弃原有数据创造新的变量,但降低了原数据的维数即复杂度,可应用在回归分析或者聚类分析中

 找到一根直线保留这5个点的信息,化二维为一维(矩阵运算)

 

API

 

 

  化四维为二维

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值