数据预处理 归一化/标准化
进行归一化的原因
原理
将其转化为统一的零到一标准feature_range=(0,1)
from sklearn.preprocessing import MinMaxScaler
transfer=MinMaxScaler()
data_new=transfer.fit_transform(data)
print(‘‘data_new:\n’’,data_new)
数据都在0到1区间内
标准化的原因
减少异常点带来的误差
x_new=(x-mean)/std
都在均值为零标准差为一附近
降维
降低特征的个数
降维的两种方式:特征选取,主成分分析
特征选择
Filtter过滤式:方差选择法,相关系数法
方差选择法
删除低方差特征
阈值越大被删除的数越多(VarianceThreshold()中的参数默认为零)
相关系数法
主成分分析
高位数据转化为低维数据的过程,可能会舍弃原有数据创造新的变量,但降低了原数据的维数即复杂度,可应用在回归分析或者聚类分析中
例 找到一根直线保留这5个点的信息,化二维为一维(矩阵运算)
API
化四维为二维