基本的数据预处理

最新推荐文章于 2020-12-09 21:08:19 发布

VIP文章 Taohongfei_huster

最新推荐文章于 2020-12-09 21:08:19 发布

阅读量196

点赞数

分类专栏：机器学习 sklearn 特征工程

本文链接：https://blog.csdn.net/qq_41951186/article/details/83019688

版权

一.标准化

1.标准差法

# 从sklearn.preprocessing导入StandardScaler
from sklearn.preprocessing import StandardScaler
# 标准化数据，保证每个维度的特征数据方差为1，均值为0，使得预测结果不会被某些维度过大的特征值而主导
ss = StandardScaler()
# fit_transform()先拟合数据，再标准化
X_train = ss.fit_transform(X_train)
# transform()数据标准化
X_test = ss.transform(X_test)

我们在训练集上调用fit_transform()，其实找到了均值μ和方差σ^2，即我们已经找到了转换规则，我们把这个规则利用在训练集上，随后，我们可以直接调用transform（）将其运用到测试集上（甚至交叉验证集）。

使用sklearn.preprocessing.scale()函数，可以直接将给定数据进行标准化（也能返回数据的均值，方差）。

>>> from sklearn import preprocessing
>>> import numpy as np
>>> X = np.array([[ 1., -1.,  2.],
...               [ 2.,  0.,  0.],
...               [ 0.,  1., -1.]])
>>> X_scaled = preprocessing.scale(X)
 
>>> X_scaled                                          
array([[ 0.  ..., -1.22...,  1.33...],
       [ 1.22...,  0.  ..., -0.26...],
       [-1.22...,  1.22..., -1.06...]])
 
>>>#处理后数据的均值和方差
>>> X_scaled.mean(axis=0)
array([ 0.,  0.,  0.])
 
>>> X_scaled.std(axis=0)
array([ 1.,  1.,  1.])

使用sklearn.preprocessing.StandardScaler类，使用该类的好处在于可以保存训练集中的参数（均值、方差）直接使用其对象转换测试集数据。

>>> from sklearn import preprocessing
>>> import numpy as np
>>> scaler = preprocessing.StandardScaler().fit(X)
>>> scaler
StandardScaler(copy=True, with_mean=True, with_std=True)
 
>>> scaler.mean_                                      
arra

最低0.47元/天解锁文章

Taohongfei_huster

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基本的数据预处理

一.标准化1.标准差法# 从sklearn.preprocessing导入StandardScalerfrom sklearn.preprocessing import StandardScaler# 标准化数据，保证每个维度的特征数据方差为1，均值为0，使得预测结果不会被某些维度过大的特征值而主导ss = StandardScaler()# fit_transform()先拟合...
复制链接

扫一扫