Python机器学习库SKLearn:数据预处理

 


数据预处理:

      将输入的数据转化成机器学习算法可以使用的数据。包含特征提取和标准化。 
           原因:数据集的标准化(服从均值为0方差为1标准正态分布(高斯分布))是大多数机器学习算法的常见要求。

如果原始数据不服从高斯分布,在预测时表现可能不好。实践中经常进行标准化(z-score 特征减去均值/标准差)。


目录        

1.1 标准正态分布(均值为0,方差为1) Scale函数的使用 对列进行z-score 

1.2 预处理模块StandardScaler                                              StandardScaler() 的参数

2、归一化 将特征缩放到一个范围内(0,1)              3、关于稀疏矩阵                    

4 缩放具有异常值的数据                                               5 、归一化         transform()函数

6  特征二值化                                                               7  分类特征编码

8 缺失值的插补                                                           9 生成多项式特征

10 自定义转化器


1.1 标准正态分布(均值为0,方差为1) Scale函数的使用 对列进行z-score 

from sklearn import preprocessing
import numpy as np
 
X = np.array([[ 1., -1.,  2.],
             [ 2.,  0.,  0.],
             [ 0.,  1., -1.]])
X_scaled = preprocessing.scale(X) #数据标准化  
X_scaled  #输出标准化的结果:

X_scaled.mean(axis=0) #axis指出用于计算均值和标准偏差的轴。如果为0,独立规范每个特征,否则(如果为1)标准化每个样本。#输出归一化后的均值 
X_scaled.std(axis=0)  #输出标准化后的标准差

1.2 预处理模块StandardScaler

其实现Transformer API以计算训练集上的平均值和标准偏差,以便以后能够在测试集上重新应用相同的变换。

StandardScaler() 的参数

  • with_mean 默认为True 表示使用密集矩阵,使用稀疏矩阵则会报错 ,with_mean= False 适用于稀疏矩阵
  • with_std 默认为True 如果为True,则将数据缩放为单位方差(单位标准偏差)
  • copy 默认为True ; 如果为False,避免产生一个副本,并执行inplace缩放。 如果数据不是NumPy数组或scipy.sparse CSR矩阵,则仍可能返回副本
scaler = preprocessing.StandardScaler().fit(X) 
scaler   #输出:StandardScaler(copy=True, with_mean=True, with_std=True)

#StandardScaler()的属性
scaler.mean_  #输出X(原数据)每列的均值:
scaler.scale_  #输出X(原数据)每列的标准差(标准偏差):
scaler.var_     #输出X(原数据)每列的方差:

#StandardScaler()的方法
scaler.transform(X)  #输出X(原数据)标准化(z-score):

StandardScaler().fit(X)  # 输入数据用于计算以后缩放的平均值和标准差
StandardScaler().fit_transform(X)  #输入数据,然后转换它
scaler.get_params() #获取此估计量的参数   #输出:{'copy': True, 'with_mean': True, 'with_std': True}

scaler.inverse_transform(scaler.transform(X))#将标准化后的数据转换成原来的数据

scaler.partial_fit(X)  # 在X缩放以后 在线计算平均值和std
scaler.set_params(with_mean=False) # 设置此估计量的参数

2、归一化 将特征缩放到一个范围内(0,1)

缩放特征到给定的最小值到最大值之间,通常在0到1之间。或则使得每个特征的最大绝对值被缩放到单位大小。这可以分别使用MinMaxScaler或MaxAbsScaler函数实现。

"""
#训练集数据 例如缩放到[0-1]
"""
MinMaxScaler 参数feature_range=(0, 1)数据集的分布范围, copy=True 副本
计算公式如下:
X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min
"""
X_train = np.array([[ 1., -1.,  2.],
                   [ 2.,  0.,  0.],
                   [ 0.,  1., -1.]])
min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)
X_train_minmax
"""
输出训练集:
array([[ 0.5       ,  0.        ,  1.        ],
       [ 1.        ,  0.5       ,  0.33333333],
       [ 0.        ,  1.        ,  0.        ]])
"""
#测试集数据
X_test = np.array([[ -3., -1.,  4.]])
X_test_minmax = min_max_scaler.transform(X_test)
X_test_minmax
"""
输出测试集:
array([[-1.5       ,  0.        ,  1.66666667]])
"""
"""
MaxAbsScaler 通过其最大绝对值来缩放每个特征,范围在[-1,1]。它用于已经以零或稀疏数据为中心的数据,应用于稀疏CSR或CSC矩阵。
X_std = X/每列的最大绝对值
"""
X_train = np.array([[ 1., -1.,  2.],
                   [ 2.,  0.,  0.],
                   [ 0.,  1., -1.]])
max_abs_scaler = preprocessing.MaxAbsScaler()
X_train_maxabs = max_abs_scaler.fit_transform(X_train)
X_train_maxabs
"""
输出训练集:
array([[ 0.5, -1. ,  1. ],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  1. , -0.5]])
"""
max_abs_scaler.scale_  
"""
输出训练集的缩放数据:
array([ 2.,  1.,  2.])
"""
X_test = np.array([[ -3., -1.,  4.]])
X_test_maxabs = max_abs_scaler.transform(X_test)
X_test_maxabs 
"""
输出测试集:
array([[-1.5, -1. ,  2. ]])
"""

3、关于稀疏矩阵

MaxAbsScaler和maxabs_scale是专门为缩放稀疏数据而设计的。scale和StandardScaler可以接受scipy.sparse矩阵作为输入,只要将with_mean = False显式传递给构造函数即可。否则,将抛出ValueError,因为静默中心将打破稀疏性,并且通常会由于无意分配过多的内存而导致执行崩溃。RobustScaler不能适用于稀疏输入,但是您可以对稀疏输入使用变换方法。
请注意,缩放器接受压缩的稀疏行和压缩的稀疏列的格式(请参阅scipy.sparse.csr_matrix和scipy.sparse.csc_matrix)。任何其他稀疏输入将被转换为压缩稀疏行表示。为了避免不必要的内存复制,建议选择CSR或CSC表示。最后,如果中心数据预期足够小,使用稀疏矩阵的toarray方法将输入显式转换为数组是另一个好的选择。


4 缩放具有异常值的数据

如果您的数据包含许多异常值,使用数据的均值和方差的缩放可能无法很好地工作。在这些情况下,您可以使用robust_scale和RobustScaler作为替代替换。 它们对数据的中心和范围使用更稳健的估计。可以使用sklearn.decomposition.PCA或sklearn.decomposition.RandomizedPCA与whiten = True进一步删除特征之间的线性相关


5 、归一化

归一化是缩放单个样本以具有单位范数的过程。 如果您计划使用二次形式(如点积或任何其他内核)来量化任何样本对的相似性,则此过程可能很有用。这个假设基于经常被用于文本分类和聚类上下文的空间向量模型上。函数normalize提供了一个快速和简单的方法来在单个数组类数据集上执行此操作,使用L1或L2范数。

X_normalized = preprocessing.normalize(X, norm='l2')
X_normalized  # 输出L2归一化

transform()函数

 预处理模块还提供了一个实用类Normalizer,它使用Transformer API实现相同的操作(其中fit方法无用,因为该操作独立处理样本)。transform(X[, y, copy])将X的每个非零行缩放为单位范数。单独归一化样本为单位标准,具有至少一个非零分量的每个样本(即数据矩阵的每一行)独立于其他样本被重新缩放,使得其范数(l1或l2)等于1。

能够使用密集numpy数组和scipy.sparse矩阵(如果避免复制/转换,使用CSR格式)。 例如文本分类或聚类的常见操作。 例如,两个l2归一化的TF-IDF向量的点积是向量的余弦相似性,并且是信息检索团体通常使用的向量空间模型的基本相似性度量。

normalizer = preprocessing.Normalizer(norm='l1').fit(X)  # fit 无用
normalizer.transform(X) 
"""
输出:
array([[ 0.25, -0.25,  0.5 ],
       [ 1.  ,  0.  ,  0.  ],
       [ 0.  ,  0.5 , -0.5 ]])
"""

 

6  特征二值化

特征二值化是将数值特征阈值化以获得布尔值的过程。 这对于假设输入数据根据多变量伯努利分布而分布的下游概率估计器可能是有用的。例如,这是sklearn.neural_network.BernoulliRBM 的情况。在文本处理中经常使用二值特征(可能简化概率推理),即使归一化计数(也称为词项频率)或TF-IDF值特征在实践中经常表现得更好。二元化和二元化接受来自scipy.sparse 的密集阵列样和稀疏矩阵作为输入。对于稀疏输入,数据将转换为压缩稀疏行表示形式(请参阅scipy.sparse.csr_matrix)。为了避免不必要的内存复制,建议选择CSR。

X = [[ 1., -1.,  2.],
      [ 2.,  0.,  0.],
     [ 0.,  1., -1.]]
 
binarizer = preprocessing.Binarizer().fit(X)  # fit does nothing
binarizer
"""
输出:
Binarizer(copy=True, threshold=0.0)
"""
binarizer.transform(X)
"""
输出:
array([[ 1.,  0.,  1.],
       [ 1.,  0.,  0.],
       [ 0.,  1.,  0.]])
"""
#可以调整二值化器的阈值
binarizer = preprocessing.Binarizer(threshold=1.1)
binarizer.transform(X)
"""
输出:
array([[ 0.,  0.,  1.],
       [ 1.,  0.,  0.],
       [ 0.,  0.,  0.]])
"""

 7  分类特征编码

     通常来说,特征不都是连续的值而是由分类给出的。例如,一个人可以具有如下特征:
       ["male", "female"]            ["from Europe", "from US", "from Asia"] 
       ["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]  
      这样的特征可以被有效地整合在一起然后进行编码,比如:
       ["male", "from US", "uses Internet Explorer"] 可以用[0, 1, 3]表示
       ["female", "from Asia", "uses Chrome"] 可以用[1, 2, 1]表示
  但是,这样的表示不能用于Sklearn进行估计,因为离散(分类)特征,将特征值转化成数字时往往是不连续的OneHotEncoder函数通过one-of-K (k之一)和 one-hot(独热)编码来解决这个问题。

enc = preprocessing.OneHotEncoder()
enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]) 
"""
输出:
OneHotEncoder(categorical_features='all', dtype=<class 'float'>,
       handle_unknown='error', n_values='auto', sparse=True)
"""
enc.transform([[0, 1, 3]]).toarray()
"""
输出:
array([[ 1.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  1.]])
"""
 
"""
    默认情况下,每个要素可以自动从数据集中推断出多少值。可以使用参数n_values显式地指定它。
    在我们的数据集中有两个性别,三个可能的大陆和四个网络浏览器。然后我们拟合估计器,并变换数据点。
结果:前两个数字编码性别,三个数字的大陆和四个数字的为网络浏览器。
"""
#注意,如果存在训练数据可能缺少分类特征的可能性,则必须显式地设置n_value。例如,
enc = preprocessing.OneHotEncoder(n_values=[2, 3, 4])
#请注意,第2个和第3个特征缺少分类值 第一个特征不缺少(有0,1)
enc.fit([[1, 2, 3], [0, 2, 0]])
"""
输出:
OneHotEncoder(categorical_features='all', dtype=<class 'float'>,
       handle_unknown='error', n_values=[2, 3, 4], sparse=True)
"""
enc.transform([[1, 0, 0]]).toarray()
"""
输出:
array([[ 0.,  1.,  1.,  0.,  0.,  1.,  0.,  0.,  0.]])
"""

 

8 缺失值的插补

由于各种原因,许多现实世界数据集包含缺失值,通常编码为空白,NaN或其他占位符。然而,这样的数据集与scikit-learn估计器不兼容,scikit-learn估计器假定数组中的所有值都是数字的,并且都具有和保持意义。使用不完整数据集的基本策略是丢弃包含缺少值的整个行和/或列。然而,这是以丢失可能有价值的数据(即使不完全)为代价。一个更好的策略是插补缺失值,即从数据的已知部分推断它们 Imputer类提供了输入缺失值的基本策略,使用缺失值所在的行或列的平均值,中值或最常见的值。这个类还允许不同的缺失值编码。

#以下代码段演示了如何使用包含缺少值的列(轴0)的平均值替换编码为np.nan的缺失值:
import numpy as np
from sklearn.preprocessing import Imputer
imp = Imputer(missing_values='NaN', strategy='mean', axis=0) # missing_values:integer/“NaN”, strategy:mean/median/most_frequent
imp.fit([[1, 2], [np.nan, 3], [7, 6]])
"""
输出:
Imputer(axis=0, copy=True, missing_values='NaN', strategy='mean', verbose=0)
"""
X = [[np.nan, 2], [6, np.nan], [7, 6]]
imp.transform(X)
"""
输出:
array([[ 4.        ,  2.        ],
       [ 6.        ,  3.66666667],
       [ 7.        ,  6.        ]])
"""
#Imputer类还支持稀疏矩阵:
import scipy.sparse as sp
X = sp.csc_matrix([[1, 2], [0, 3], [7, 6]])
imp = Imputer(missing_values=0, strategy='mean', axis=0)
imp.fit(X)
"""
Imputer(axis=0, copy=True, missing_values=0, strategy='mean', verbose=0)
"""
X_test = sp.csc_matrix([[0, 2], [6, 0], [7, 6]])
imp.transform(X_test)
"""
输出:
array([[ 4.        ,  2.        ],
       [ 6.        ,  3.66666667],
       [ 7.        ,  6.        ]])
"""

 

9 生成多项式特征

 通常,通过考虑输入数据的非线性特征来增加模型的复杂性是有用的。使用的一种简单和常见的方法是多项式特征,其可以获得特征的高阶和交互项。它在PolynomialFeatures中实现。注意,当使用多项式核函数时,多项式特征在内核方法(例如,sklearn.svm.SVC,sklearn.decomposition.KernelPCA)中被隐含地使用。

from sklearn.preprocessing import PolynomialFeatures
X = np.arange(6).reshape(3, 2)
X
"""
输出:
array([[0, 1],
       [2, 3],
       [4, 5]])
"""
poly = PolynomialFeatures(2)
poly.fit_transform(X)        
"""
输出:
array([[  1.,   0.,   1.,   0.,   0.,   1.],
       [  1.,   2.,   3.,   4.,   6.,   9.],
       [  1.,   4.,   5.,  16.,  20.,  25.]])
       
从X(X_1, X_2) 到X(1, X_1, X_2, X_1^2, X_1X_2, X_2^2).
"""
 
#在某些情况下,只需要特征之间的交互项,并且可以通过设置获得
X = np.arange(9).reshape(3, 3)
X   
"""
输出:
array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])
"""
poly = PolynomialFeatures(degree=3, interaction_only=True)
poly.fit_transform(X) 
"""
输出:
array([[   1.,    0.,    1.,    2.,    0.,    0.,    2.,    0.],
       [   1.,    3.,    4.,    5.,   12.,   15.,   20.,   60.],
       [   1.,    6.,    7.,    8.,   42.,   48.,   56.,  336.]])
       
从(X_1, X_2, X_3) 到 (1, X_1, X_2, X_3, X_1X_2, X_1X_3, X_2X_3, X_1X_2X_3).
"""

10 自定义转化器

from sklearn.preprocessing import FunctionTransformer
transformer = FunctionTransformer(np.log1p)
X = np.array([[0, 1], [2, 3]])
transformer.transform(X)
"""
输出:
array([[ 0.        ,  0.69314718],
       [ 1.09861229,  1.38629436]])
"""

注:本文转自Python机器学习库SKLearn:数据集转换之预处理数据


  • 5
    点赞
  • 55
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: python机器学习sklearn是一个功能强大的机器学习工具包,提供了许多机器学习算法和工具,包括分类、回归、聚类、降维、模型选择、预处理等等。它的目的是使机器学习更加简单和可重复,以便更多的人可以轻松地使用它。 sklearn的代码风格简洁明了,易于理解和使用。它也提供了许多评估指标和工具,帮助用户评估模型的性能。此外,它还支持许多常见的数据集,方便用户进行试验和研究。 总的来说,sklearn是一个非常实用的机器学习工具包,适用于各种机器学习任务。如果你是一个初学者,或者是一个经验丰富的机器学习工程师,都可以从sklearn中受益。 ### 回答2: Python机器学习sklearn是一个功能强大的开源工具,可实现各种常见和先进的机器学习任务。它通过提供简洁易用的API,使得机器学习的各个方面更加容易上手。 sklearn包含了众多的工具,包括预处理、特征提取、监督和无监督学习算法等等。其中,监督学习算法包括分类、回归和聚类。预处理工具包括缺失数据处理、数据标准化等等。而特征提取方面,sklearn支持所有流行的提取技术,如HOG、LBP和Sift等。无论从哪个角度看,sklearn都是一款强大的工具。 sklearn的优点在于它广泛的支持性。它提供了许多内置的数据集,使得机器学习工作更加容易上手。此外,sklearn还提供了许多功能强大的可视化工具,辅助开发者理解机器学习结果。 sklearn做得不足之处在于其内置算法并没有涵盖所有机器学习任务。例如,它并未支持深度学习,限制了其使用范围。另外,由于sklearn提供的是封装的算法,一定程度上降低了自定义的空间。 总而言之,sklearn是一款非常实用的机器学习工具,它在广泛的支持性、API易用性、可视化工具和算法效果上均有表现。但是,虽然它不是完美的,但它仍然是大多数机器学习项目的首选之一。 ### 回答3: Python机器学习sklearn是一个强大的工具,它提供了多种机器学习算法和工具,包括分类、回归、聚类、降维、模型选择和预处理等功能。sklearn是对其他Python数据处理,如NumPy和Pandas的补充,使得用户可以快速轻松地对数据进行一些复杂的操作。在许多数据科学和机器学习项目中,sklearn成为了一个不可或缺的工具。 sklearn主要被开发用于数据挖掘和数据分析,并被广泛应用于分类、聚类、回归和推荐系统等领域。该提供了许多流行的机器学习算法实现,如支持向量机(SVM)、K近邻(KNN)、决策树、随机森林、朴素贝叶斯等。这些算法可以应用于不同类型的数据,如数值、分类、文本、图像和语音等数据。 sklearn的另一个重要特点是它提供了许多有用的数据预处理和数据转换方法,如标准化、归一化、降维、数据合并等方法,这些方法可以使数据更适合于机器学习算法的应用。sklearn还提供了模型选择和评估的工具,如交叉验证、网格搜索和性能度量等方法,这些方法可以帮助用户有效地选择合适的算法和调整其参数。 sklearn的优点不仅在于它的功能和性能,而且在于它在Python社区的支持和贡献。由于python机器学习的社区非常活跃,因此sklearn能够获得广泛的应用和支持。此外,sklearn详细的文档和示例使得学习和使用该变得更加轻松和容易。 总之,Python机器学习sklearn是一个功能强大、易于使用和广泛应用于数据科学和机器学习项目的工具,它的优点在于其提供了众多有用的机器学习算法和工具,清晰的文档和示例以及强大的Python社区的支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值