SKlearn学习笔记——数据预处理与特征工程

最新推荐文章于 2023-08-15 10:13:20 发布

StephenBarrnet

最新推荐文章于 2023-08-15 10:13:20 发布

阅读量5.4k

点赞数 4

分类专栏：机器学习 sklearn 文章标签：机器学习

本文链接：https://blog.csdn.net/luanfenlian0992/article/details/106391991

版权

机器学习同时被 2 个专栏收录

9 篇文章 5 订阅

订阅专栏

sklearn

7 篇文章 4 订阅

订阅专栏

SKlearn学习笔记——数据预处理与特征工程

1. 概述
2. 数据预处理 Preprocessing & Impute

前言： scikit-learn，又写作sklearn，是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和Matplotlib等python数值计算的库实现高效的算法应用，并且涵盖了几乎所有主流机器学习算法。

以下内容整理自菜菜的机器学习课堂.

sklearn官网链接: 点击这里.

1. 概述

行话说：数据与特征工程决定了效果的顶端，而模型负责到达这个顶端，由此可见，数据预处理与特征工程的重要性，或者换句话说，数据不给力，再牛掰的算法也不行。所以先讲一讲建模之前的流程——数据预处理与特征工程。

数据挖掘最基本常识，即它的五大流程：

获取数据
数据预处理，让数据适应模型，匹配模型的需求
特征工程，降低计算成本，提升模型上限
建模，测试模型并预测出结果
上线，验证模型效果

sklearn中包含众多数据预处理和特征工程相关的模块，虽然刚接触sklearn时，大家都会为其中包含的各种算法的广度深度所震惊，但其实sklearn六大板块中有两块都是关于数据预处理和特征工程的，两个板块互相交互，为建模之前的全部工程打下基础。

在这里插入图片描述

模块preprocessing:几乎包含数据预处理的所有内容
模块Impute:填补缺失值专用
模块feature_selection:包含特征选择的各种方法的实践
模块decomposition:包含降维算法

2. 数据预处理 Preprocessing & Impute

2.1 数据无量纲化

在机器学习算法实践中，我们往往有着将不同规格的数据转换到同一规格，或不同分布的数据转换到某个特定分布的需求，这种需求统称为将数据“无量纲化”。譬如梯度和矩阵为核心的算法中，譬如逻辑回归，支持向量机，神经网络，无量纲化可以加快求解速度;而在距离类模型，譬如K近邻，K-Means聚类中，无量纲化可以帮我们提升模型精度，避免某一个取值范围特别大的特征对距离计算造成影响。(一个特例是决策树和树的集成算法们，对决策树我们不需要无量纲化，决策树可以把任意数据都处理得很好。)

数据的无量纲化可以是线性的，也可以是非线性的。线性的无量纲化包括中心化(Zero-centered或者Mean-subtraction)处理和缩放处理(Scale)。中心化的本质是让所有记录减去一个固定值，即让数据样本数据平移到某个位置。缩放的本质是通过除以一个固定值，将数据固定在某个范围之中，取对数也算是一种缩放处理。

preprocessing.MinMaxScaler
当数据(x)按照最小值中心化后，再按极差(最大值 - 最小值)缩放，数据移动了最小值个单位，并且会被收敛到[0,1]之间，而这个过程，就叫做数据归一化(Normalization，又称Min-Max Scaling)。注意，Normalization是归一化，不是正则化，真正的正则化是regularization，不是数据预处理的一种手段。归一化之后的数据服从正态分布，公式如下:

在sklearn当中，我们使用preprocessing.MinMaxScaler来实现这个功能。MinMaxScaler有一个重要参数，feature_range，控制我们希望把数据压缩到的范围，默认是[0,1]。

from sklearn.preprocessing import MinMaxScaler
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]

import pandas as pd
pd.DataFrame(data)

#实现归一化
scaler = MinMaxScaler()              #实例化
scaler = scaler.fit(data)            #fit，在这里本质是生成min(x)和max(x)
result = scaler.transform(data)      #通过接口导出结果
result

result_ = scaler.fit_transform(data)  #训练和导出结果一步达成
scaler.inverse_transform(result)      #将归一化后的结果逆转

#使用MinMaxScaler的参数feature_range实现将数据归一化到[0,1]以外的范围中
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scaler = MinMaxScaler(feature_range=[5,10])  #依然实例化

result = scaler.fit_transform(data)   #fit_transform一步导出结果
result

#当X中的特征数量非常多的时候，fit会报错并表示，数据量太大了我计算不了 #此时使用partial_fit作为训练接口
#scaler = scaler.partial_fit(data)

preprocessing.StandardScaler
当数据(x)按均值(μ)中心化后，再按标准差(σ)缩放，数据就会服从为均值为0，方差为1的正态分布(即标准正态分布)，而这个过程，就叫做数据标准化(Standardization，又称Z-score normalization)，公式如下:

from sklearn.preprocessing import StandardScaler
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scaler = StandardScaler()        #实例化
scaler.fit(data)                 #fit，本质是生成均值和方差

scaler.mean_                     #查看均值的属性mean_
scaler.var_                      #查看方差的属性var_

x_std = scaler.transform(data)   #通过接口导出结果
x_std.mean()                     #导出的结果是一个数组，用mean()查看均值
x_std.std()                      #用std()查看方差

scaler.fit_transform(data)       #使用fit_transform(data)一步达成结果
scaler.inverse_transform(x_std)  #使用inverse_transform逆转标准化

对于StandardScaler和MinMaxScaler来说，空值NaN会被当做是缺失值，在fit的时候忽略，在transform的时候保持缺失NaN的状态显示。并且，尽管去量纲化过程不是具体的算法，但在fit接口中，依然只允许导入至少二维数组，一维数组导入会报错。通常来说，我们输入的X会是我们的特征矩阵，现实案例中特征矩阵不太可能是一维所以不会存在这个问题。

StandardScaler和MinMaxScaler选哪个?
看情况。大多数机器学习算法中，会选择StandardScaler来进行特征缩放，因为MinMaxScaler对异常值非常敏感。在PCA，聚类，逻辑回归，支持向量机，神经网络这些算法中，StandardScaler往往是最好的选择。
MinMaxScaler在不涉及距离度量、梯度、协方差计算以及数据需要被压缩到特定区间时使用广泛，比如数字图像处理中量化像素强度时，都会使用MinMaxScaler将数据压缩于[0,1]区间之中。
建议先试试看StandardScaler，效果不好换MinMaxScaler。

2.2 缺失值

机器学习和数据挖掘中所使用的数据，永远不可能是完美的。很多特征，对于分析和建模来说意义非凡，但对于实际收集数据的人却不是如此，因此数据挖掘之中，常常会有重要的字段缺失值很多，但又不能舍弃字段的情况。因此，数据预处理中非常重要的一项就是处理缺失值。

在这里，我们使用从泰坦尼克号提取出来的数据，这个数据有三个特征，一个数值型，两个字符型，标签也是字符型。从这里开始，我们就使用这个数据给大家作为例子，让大家慢慢熟悉sklearn中数据预处理的各种方式。

在这里插入图片描述
从上图可以看出Age跟Embarked均有缺失值。

impute.SimpleImputer
函数原型：

class sklearn.impute.SimpleImputer (missing_values=nan, strategy=’mean’, fill_value=None, verbose=0,copy=True)

它包括了4个重要参数：
在这里插入图片描述
接下来是数据填充环节：

Age = data.loc[:,"Age"].values.reshape(-1,1)    #转换格式，sklearn当中特征矩阵必须是二维
from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer()         #实例化。默认采用均值填补
imp_median = SimpleImputer(strategy = "median")       #用中位数填补
imp_0 = SimpleImputer(strategy = "constant",fill_value = 0)       #实例化。采用0填补

imp_mean = imp_mean.fit_transform(Age)       #fit_transform一步完成调取结果
imp_median = imp_median.fit_transform(Age)
imp_0 = imp_0.fit_transform(Age)

#在这里我们使用中位数填补Age
data.loc[:,"Age"] = imp_median

#使用众数填补Embarked
Embarked = data.loc[:,"Embarked"].values.reshape(-1,1)
imp_mode = SimpleImputer(strategy = "most_frequent")
data.loc[:,"Embarked"] = imp_mode.fit_transform(Embarked)  #一步到位

至此，缺失的数据均被填充完整。
在这里插入图片描述

2.3 处理分类型特征:编码与哑变量

在机器学习中，大多数算法，譬如逻辑回归，支持向量机SVM，k近邻算法等都只能够处理数值型数据，不能处理文字，在sklearn当中，除了专用来处理文字的算法，其他算法在fit的时候全部要求输入数组或矩阵，也不能够导入文字型数据(其实手写决策树和普斯贝叶斯可以处理文字，但是sklearn中规定必须导入数值型)。然而在现实中，许多标签和特征在数据收集完毕的时候，都不是以数字来表现的。比如说，学历的取值可以是[“小学”，“初中”，“高中”，“大学”]，付费方式可能包含[“支付宝”，“现金”，“微信”]等等。在这种情况下，为了让数据适应算法和库，我们必须将数据进行编码，即是说，将文字型数据转换为数值型。

preprocessing.LabelEncoder:标签专用，能够将分类转换为分类数值

from sklearn.preprocessing import LabelEncoder

y = data.iloc[:,-1]        #要输入的是标签，不是特征矩阵，所以允许一维
le = LabelEncoder()        #实例化
le = le.fit(y)             #导入数据
label = le.transform(y)    #transform接口调取结果
le.classes_                #属性.classes_查看标签中究竟有多少类别
label                      #查看获取的结果label

le.fit_transform(y)       #也可以直接fit_transform一步到位
le.inverse_transform(label) #使用inverse_transform可以逆转

data.iloc[:,-1] = label #让标签等于我们运行出来的结果

#如果不需要教学展示的话我会这么写:
from sklearn.preprocessing import LabelEncoder
data.iloc[:,-1] = LabelEncoder().fit_transform(data.iloc[:,-1])

preprocessing.OrdinalEncoder:特征专用，能够将分类特征转换为分类数值

from sklearn.preprocessing import OrdinalEncoder
#接口categories_对应LabelEncoder的接口classes_，一模一样的功能
data_ = data.copy()
data_.head()
OrdinalEncoder().fit(data_.iloc[:,1:-1]).categories_
data_.iloc[:,1:-1] = OrdinalEncoder().fit_transform(data_.iloc[:,1:-1])

preprocessing.OneHotEncoder:独热编码，创建哑变量

from sklearn.preprocessing import OneHotEncoder
X = data.iloc[:,1:-1]

enc = OneHotEncoder(categories='auto').fit(X)
result = enc.transform(X).toarray()
result

#依然可以直接一步到位，但为了给大家展示模型属性，所以还是写成了三步
OneHotEncoder(categories='auto').fit_transform(X).toarray()

#依然可以还原
pd.DataFrame(enc.inverse_transform(result))
enc.get_feature_names()   #查看哑变量对应的特征名称

#axis=1,表示跨行进行合并，也就是将量表左右相连，如果是axis=0，就是将量表上下相连
newdata = pd.concat([data,pd.DataFrame(result)],axis=1)

#删除"Sex","Embarked"这两行
newdata.drop(["Sex","Embarked"],axis=1,inplace=True)

#重新命名列名称
newdata.columns = ["Age","Survived","Female","Male","Embarked_C","Embarked_Q","Embarked_S"]

在这里插入图片描述

2.4 处理连续型特征:二值化与分段

sklearn.preprocessing.Binarizer
根据阈值将数据二值化(将特征值设置为0或1)，用于处理连续型变量。大于阈值的值映射为1，而小于或等于阈值的值映射为0。默认阈值为0时，特征中所有的正值都映射到1。二值化是对文本计数数据的常见操作，分析人员可以决定仅考虑某种现象的存在与否。它还可以用作考虑布尔随机变量的估计器的预处理步骤(例如，使用贝叶斯设置中的伯努利分布建模)。
preprocessing.KBinsDiscretizer
这是将连续型变量划分为分类变量的类，能够将连续型变量排序后按顺序分箱后编码。总共包含三个重要参数:

from sklearn.preprocessing import KBinsDiscretizer

X = data.iloc[:,0].values.reshape(-1,1)
est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
est.fit_transform(X)

#查看转换后分的箱:变成了一列中的三箱
set(est.fit_transform(X).ravel())

est = KBinsDiscretizer(n_bins=3, encode='onehot', strategy='uniform')
#查看转换后分的箱:变成了哑变量
est.fit_transform(X).toarray()

StephenBarrnet

关注

4
点赞
踩
40

收藏

觉得还不错? 一键收藏
0
评论
SKlearn学习笔记——数据预处理与特征工程

SKlearn学习笔记一. sklearn上的数据预处理与特征工程二. 决策树在sklearn上的实现三. 随机森林在sklearn上的实现四. 逻辑回归在sklearn上的实现五. Kmeans聚类算法在sklearn上的实现六. 支持向量机在sklearn上的实现七. 朴素贝叶斯在sklearn上的实现八. XGBoost在sklearn上的实现九. 神经网络在sklearn上的实现前言： scikit-learn，又写作sklearn，是一个开源的基于python语言的机器学习工具包。它通过Num
复制链接

扫一扫

专栏目录