sklearn机器学习之数据预处理（Preprocessing & Impute）

最新推荐文章于 2024-04-20 00:26:39 发布

yueyuebushihuai

最新推荐文章于 2024-04-20 00:26:39 发布

阅读量1.8k

点赞数 4

文章标签：算法机器学习 python 数据分析数据挖掘

本文链接：https://blog.csdn.net/m0_45184077/article/details/114533201

版权

在之前的机器学习中，我们使用的数据集都是sklearn自带的数据集以及非常经典的泰坦尼克号数据集，这些数据集都是一些经过处理被验证为对机器学习很友好的数据集，而现实生活中我们往往数据集并不是那么友好，所以需要对其进行一些预处理，下面我们利用sklearn对数据进行一些预处理。

1数据无量纲化

在机器学习算法实践中，我们往往有着将不同规格的数据转换到同一规格，或不同分布的数据转换到某个特定分布的需求，这种需求统称为将数据“无量纲化”。譬如梯度和矩阵为核心的算法中，譬如逻辑回归，支持向量机，神经网络，无量纲化可以加快求解速度；而在距离类模型，譬如K近邻，K-Means聚类中，无量纲化可以帮我们提升模型精度，避免某一个取值范围特别大的特征对距离计算造成影响。（一个特例是决策树和树的集成算法们，对决策树我们不需要无量纲化，决策树可以把任意数据都处理得很好。）
数据的无量纲化可以是线性的，也可以是非线性的。线性的无量纲化包括中心化（Zero-centered或者Mean-subtraction）处理和缩放处理（Scale）。中心化的本质是让所有记录减去一个固定值，即让数据样本数据平移到某个位置。缩放的本质是通过除以一个固定值，将数据固定在某个范围之中，取对数也算是一种缩放处理。

1.1数据归一化

具体公式如下：
在这里插入图片描述

1.1.1导入包并设置数据

#导入包
from sklearn.preprocessing import MinMaxScaler
#设置数据
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
import pandas as pd
#查看为DataFrame格式
pd.DataFrame(data)

输出为：
在这里插入图片描述

1.1.2实例化对象并进行训练转化

#实例化归一化对象
scaler = MinMaxScaler()
#对数据进行训练
scaler = scaler.fit(data)
#对数据进行转化
result = scaler.transform(data)
result

输出结果为：
在这里插入图片描述

1.1.3一步进行训练并转化

#训练导出一行代码_
result_1 = scaler.fit_transform(data)
result_1

输出结果为：
在这里插入图片描述
当数据量很大时，需要使用scaler = scaler.partial_fit(data)进行训练。

1.2数据标准化

公式如下：
在这里插入图片描述
数据标准化的代码实现与归一化相似，这里只给出一种使用

from sklearn.preprocessing import StandardScaler
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scale = StandardScaler()
scale = scale.fit(data)
result = scale.transform(data)
result

输出结果为：
在这里插入图片描述

1.3关于归一化和标准化的选取

看情况。大多数机器学习算法中，会选择StandardScaler来进行特征缩放，因为MinMaxScaler对异常值非常敏感。在PCA，聚类，逻辑回归，支持向量机，神经网络这些算法中，StandardScaler往往是最好的选择。
MinMaxScaler在不涉及距离度量、梯度、协方差计算以及数据需要被压缩到特定区间时使用广泛，比如数字图像处理中量化像素强度时，都会使用MinMaxScaler将数据压缩于[0,1]区间之中。
建议先试试StandardScaler，效果不好换MinMaxScaler。
除了StandardScaler和MinMaxScaler之外，sklearn中也提供了各种其他缩放处理（中心化只需要一个pandas广播一下减去某个数就好了，因此sklearn不提供任何中心化功能）。比如，在希望压缩数据，却不影响数据的稀疏性时（不影响矩阵中取值为0的个数时），我们会使用MaxAbsScaler；在异常值多，噪声非常大时，我们可能会选用分位数来无量纲化，此时使用RobustScaler。

2缺失值

2.1使用impute.SimpleImputer

参数	含义
missing_values	告诉SimpleImputer，数据中的缺失值长什么样，默认空值np.nan
strategy	我们填补缺失值的策略，默认均值。输入“mean”使用均值填补（仅对数值型特征可用）输入“median"用中值填补（仅对数值型特征可用）输入"most_frequent”用众数填补（对数值型和字符型特征都可用）输入“constant"表示请参考参数“fill_value"中的值（对数值型和字符型特征都可用）
fill_value	当参数startegy为”constant"的时候可用，可输入字符串或数字表示要填充的值，常用0
copy	默认为True，将创建特征矩阵的副本，反之则会将缺失值填补到原本的特征矩阵中去。

#导入相应包并准备数据集
import pandas as pd
data = pd.read_csv(r"D:\download\sklearnjqxx_jb51\【机器学习】菜菜的sklearn课堂(1-12全课)\03数据预处理和特征工程\Narrativedata.csv", index_col=0)
data.head(5)

#查看数据信息
data.info()

#取出年龄列并设为二位（tips：因为sklearn中特征矩阵必须是二位）
Age = data.loc[:, 'Age'].values.reshape(-1, 1)
#分别用均值、中位数、0对缺失值进行填补
from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer() #实例化，默认均值填补
imp_median = SimpleImputer(strategy="median") #用中位数填补
imp_0 = SimpleImputer(strategy="constant",fill_value=0) #用0填补
imp_mean = imp_mean.fit_transform(Age) #fit_transform一步完成调取结果
imp_median = imp_median.fit_transform(Age)
imp_0 = imp_0.fit_transform(Age)
imp_mean[: 20]
imp_median[: 20]
imp_0[: 20]

#在这里我们使用中位数填补Age
data.loc[:,"Age"] = imp_median

#使用众数填补Embarked
Embarked = data.loc[:,"Embarked"].values.reshape(-1,1)
imp_mode = SimpleImputer(strategy = "most_frequent")
data.loc[:,"Embarked"] = imp_mode.fit_transform(Embarked)
data.info()

3编码与哑变量

在机器学习中，大多数算法，譬如逻辑回归，支持向量机SVM，k近邻算法等都只能够处理数值型数据，不能处理文字，在sklearn当中，除了专用来处理文字的算法，其他算法在fit的时候全部要求输入数组或矩阵，也不能够导入文字型数据（其实手写决策树和普斯贝叶斯可以处理文字，但是sklearn中规定必须导入数值型）。
&emps;&emps;然而在现实中，许多标签和特征在数据收集完毕的时候，都不是以数字来表现的。比如说，学历的取值可以是[“小学”，“初中”，“高中”，“大学”]，付费方式可能包含[“支付宝”，“现金”，“微信”]等等。在这种情况下，为了让数据适应算法和库，我们必须将数据进行编码，即是说，将文字型数据转换为数值型。

3.1LabelEncoder：标签专用，能够将分类转换为分类数值

#一行代码搞定
from sklearn.preprocessing import LabelEncoder
data.iloc[:,-1] = LabelEncoder().fit_transform(data.iloc[:,-1])

3.2OrdinalEncoder：特征专用，能够将分类特征转换为分类数值

from sklearn.preprocessing import OrdinalEncoder
data_ = data.copy()
data_.iloc[:,1:-1] = OrdinalEncoder().fit_transform(data_.iloc[:,1:-1])

3.3OneHotEncoder：独热编码，创建哑变量

data.head()
from sklearn.preprocessing import OneHotEncoder
X = data.iloc[:,1:-1]
enc = OneHotEncoder(categories='auto').fit(X)
result = enc.transform(X).toarray()
result
#依然可以直接一步到位，但为了给大家展示模型属性，所以还是写成了三步
OneHotEncoder(categories='auto').fit_transform(X).toarray()
#依然可以还原
pd.DataFrame(enc.inverse_transform(result))
enc.get_feature_names()
result
result.shape
#axis=1,表示跨行进行合并，也就是将量表左右相连，如果是axis=0，就是将量表上下相连
newdata = pd.concat([data,pd.DataFrame(result)], axis=1)
newdata.head()
newdata.drop(["Sex","Embarked"], axis=1, inplace=True)
newdata.columns = ["Age","Survived","Female","Male","Embarked_C","Embarked_Q","Embarked_S"]
newdata.head()

4二值化和分段

4.1Binarizer：二值化特征

设置阈值，大于阈值则为1，小于则为0

data_2 = data.copy()
from sklearn.preprocessing import Binarizer
X = data_2.iloc[:,0].values.reshape(-1,1) #类为特征专用，所以不能使用一维数组
transformer = Binarizer(threshold=30).fit_transform(X)
transformer

4.2KBinsDiscretizer：多值化特征

from sklearn.preprocessing import KBinsDiscretizer
X = data.iloc[:,0].values.reshape(-1,1) 
est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
est.fit_transform(X)

est = KBinsDiscretizer(n_bins=3, encode='onehot', strategy='uniform')
est.fit_transform(X).toarray()

参数含义：

参数	含义
n_bins	每个特征中分箱的个数，默认5，一次会被运用到所有导入的特征
encode	编码的方式，默认“onehot” “onehot”：做哑变量，之后返回一个稀疏矩阵，每一列是一个特征中的一个类别，含有该类别的样本表示为1，不含的表示为0 “ordinal”：每个特征的每个箱都被编码为一个整数，返回每一列是一个特征，每个特征下含有不同整数编码的箱的矩阵"onehot-dense"：做哑变量，之后返回一个密集数组。
strategy	用来定义箱宽的方式，默认"quantile" “uniform”：表示等宽分箱，即每个特征中的每个箱的最大值之间的差为(特征.max() - 特征.min())/(n_bins) “quantile”：表示等位分箱，即每个特征中的每个箱内的样本数量都相同"kmeans"：表示按聚类分箱，每个箱中的值到最近的一维k均值聚类的簇心得距离都相同

5总结

数据预处理能力对我们机器学习能力还是有很大帮助的，一个好的数据集在我们机器学习过程中往往效果表现更好。PS有些代码由于输出太长并未给出运行截图,大家可以动手去试试~

yueyuebushihuai

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
sklearn机器学习之数据预处理（Preprocessing & Impute）

在之前的机器学习中，我们使用的数据集都是sklearn自带的数据集以及非常经典的泰坦尼克号数据集，这些数据集都是一些经过处理被验证为对机器学习很友好的数据集，而现实生活中我们往往数据集并不是那么友好，所以需要对其进行一些预处理，下面我们利用sklearn对数据进行一些预处理。1.数据无量纲化在机器学习算法实践中，我们往往有着将不同规格的数据转换到同一规格，或不同分布的数据转换到某个特定分布的需求，这种需求统称为将数据“无量纲化”。譬如梯度和矩阵为核心的算法中，譬如逻辑回归，支持向量机，神经网络，
复制链接

扫一扫