【机器学习第三周】简单的数据预处理和特征工程

最新推荐文章于 2024-02-01 22:30:22 发布

Gshiner

最新推荐文章于 2024-02-01 22:30:22 发布

阅读量616

点赞数 1

分类专栏：机器学习文章标签：数据预处理特征工程

本文链接：https://blog.csdn.net/Gshiner/article/details/103309325

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

梳理大纲： 简单的数据预处理和特征工程
【1】数据归一化：无量纲化：最值归一化、均值方差归一化及sklearn中的Scaler
【2】特征工程：缺失值与特征处理
缺失值处理 + 分类型特征处理（编码与哑变量）+ 连续型特征处理（二值化与分段）

参考资料:
机器学习西瓜书
以下微信文章 From【木东居士】公众号

From 机器学习小组：由【木东居士】公众号定期发起
对数据感兴趣的伙伴们可一同在此交流学习

【1】数据归一化

在实际应用中，样本的不同特征的单位不同，会在求距离时造成很大的影响。
比如：在两个样本中肿瘤大小的分别为1cm和5cm，发现时间分别为100天和200天，那么在求距离时，时间差为100、大小差为4，那么其结果会被时间所主导，因为肿瘤大小的差距太小了。但是如果我们把时间用年做单位，0.27年与0.55年的差距又远小于肿瘤大小的差距，结果又会被大小主导了。

在量纲不同的情况下，以上的情况，不能反映样本中每一个特征的重要程度。这就需要数据归一化了

最值归一化(normalization)： 把所有数据映射到0-1之间。最值归一化的使用范围是特征的分布具有明显边界的(分数0～100分、灰度0～255)，受outlier的影响比较大
在这里插入图片描述
均值方差归一化(standardization)： 把所有数据归一到均值为0方差为1的分布中。适用于数据中没有明显的边界，有可能存在极端数据值的情况.

归一化注意点：
在对测试数据集进行归一化时，仍然要使用训练数据集的均值train_mean和方差std_train。
这是因为测试数据是模拟的真实环境，真实环境中可能无法得到均值和方差，对数据进行归一化。只能够使用公式(x_test - mean_train) / std_train并且，数据归一化也是算法的一部分，针对后面所有的数据，也应该做同样的处理.。

Sklearn中的归一化实现

import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split

iris = datasets.load_iris()
X = iris.data
y = iris.target
X_train,X_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=666)

from sklearn.preprocessing import StandardScaler
standardScaler = StandardScaler()
# 归一化的过程跟训练模型一样
standardScaler.fit(X_train)
standardScaler.mean_
standardScaler.scale_   # 表述数据分布范围的变量，替代std_

# 使用transform
X_train_standard = standardScaler.transform(X_train)
X_test_standard = standardScaler.transform(X_test)

【2】特征工程：缺失值与特征处理

缺失值填充：

方法【1】SimpleImputer：
这个类是专门用来填补缺失值的。它包括四个重要参数：
class sklearn.impute.SimpleImputer
(missing_values=nan, strategy=’mean’, fill_value=None, verbose=0, copy=True)
在这里插入图片描述

以Titanic数据为例

data.info()
#填补年龄

Age = data.loc[:,"Age"].values.reshape(-1,1)            #sklearn当中特征矩阵必须是二维
Age[:20]

from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer()                              #实例化，默认均值填补
imp_median = SimpleImputer(strategy="median")           #用中位数填补
imp_0 = SimpleImputer(strategy="constant",fill_value=0) #用0填补

imp_mean = imp_mean.fit_transform(Age)                  #fit_transform一步完成调取结果
imp_median = imp_median.fit_transform(Age)
imp_0 = imp_0.fit_transform(Age)

imp_mean[:20]
imp_median[:20]
imp_0[:20]

#在这里我们使用中位数填补Age
data.loc[:,"Age"] = imp_median

data.info()

#使用众数填补Embarked
Embarked = data.loc[:,"Embarked"].values.reshape(-1,1)
imp_mode = SimpleImputer(strategy = "most_frequent")
data.loc[:,"Embarked"] = imp_mode.fit_transform(Embarked)

data.info()

方法2：用Pandas和Numpy进行填补其实更加简单

import pandas as pd
data = pd.read_csv(r".....",index_col=0)

data.head()

data.loc[:,"Age"] = data.loc[:,"Age"].fillna(data.loc[:,"Age"].median())
#.fillna 在DataFrame里面直接进行填补

data.dropna(axis=0,inplace=True)
#.dropna(axis=0)删除所有有缺失值的行，.dropna(axis=1)删除所有有缺失值的列
#参数inplace，为True表示在原数据集上进行修改，为False表示生成一个复制对象，不修改原数据，默认False

处理分类型特征：编码与哑变量

在机器学习中，大多数算法，譬如逻辑回归，支持向量机SVM，k近邻算法等都只能够处理数值型数据，不能处理文字，在sklearn当中，除了专用来处理文字的算法，其他算法在fit的时候全部要求输入数组或矩阵，也不能够导入文字型数据（其实手写决策树和普斯贝叶斯可以处理文字，但是sklearn中规定必须导入数值型）。
然而在现实中，许多标签和特征在数据收集完毕的时候，都不是以数字来表现的。比如说，学历的取值可以是[“小学”，“初中”，“高中”，“大学”]，付费方式可能包含[“支付宝”，“现金”，“微信”]等等。在这种情况下，为了让数据适应算法和库，我们必须将数据进行编码，即是说，将文字型数据转换为数值型。

preprocessing.LabelEncoder：标签专用，能够将分类转换为分类数值

from sklearn.preprocessing import LabelEncoder
data.iloc[:,-1] = LabelEncoder().fit_transform(data.iloc[:,-1])

preprocessing.OrdinalEncoder：特征专用，能够将分类特征转换为分类数值

from sklearn.preprocessing import OrdinalEncoder

#接口categories_对应LabelEncoder的接口classes_，一模一样的功能
data_ = data.copy()

data_.head()

OrdinalEncoder().fit(data_.iloc[:,1:-1]).categories_

data_.iloc[:,1:-1] = OrdinalEncoder().fit_transform(data_.iloc[:,1:-1])

data_.head()

preprocessing.OneHotEncoder：独热编码，创建哑变量

我们刚才已经用OrdinalEncoder把分类变量Sex和Embarked都转换成数字对应的类别了。在舱门Embarked这一列中，我们使用[0,1,2]代表了三个不同的舱门，然而这种转换是正确的吗？

我们来思考三种不同性质的分类数据：

1） 舱门（S，C，Q）

　　三种取值S，C，Q是相互独立的，彼此之间完全没有联系，表达的是S≠C≠Q的概念。这是名义变量。

2） 学历（小学，初中，高中）

　　三种取值不是完全独立的，我们可以明显看出，在性质上可以有高中>初中>小学这样的联系，学历有高低，但是学历取值之间却不是可以计算的，我们不能说小学 + 某个取值 = 初中。这是有序变量。

3） 体重（>45kg，>90kg，>135kg）

　　各个取值之间有联系，且是可以互相计算的，比如120kg - 45kg = 90kg，分类之间可以通过数学计算互相转换。这是有距变量。

　　然而在对特征进行编码的时候，这三种分类数据都会被我们转换为[0,1,2]，这三个数字在算法看来，是连续且可以计算的，这三个数字相互不等，有大小，并且有着可以相加相乘的联系。所以算法会把舱门，学历这样的分类特征，都误会成是体重这样的分类特征。这是说，我们把分类转换成数字的时候，忽略了数字中自带的数学性质，所以给算法传达了一些不准确的信息，而这会影响我们的建模。

类别OrdinalEncoder可以用来处理有序变量
但对于名义变量，我们只有使用哑变量的方式来处理，才能够尽量向算法传达最准确的信息
这样的变化，让算法能够彻底领悟，原来三个取值是没有可计算性质的，是“有你就没有我”的不等概念。在我们的数据中，性别和舱门，都是这样的名义变量。因此我们需要使用独热编码，将两个特征都转换为哑变量。
　　在这里插入图片描述

data.head()

from sklearn.preprocessing import OneHotEncoder
X = data.iloc[:,1:-1]

enc = OneHotEncoder(categories='auto').fit(X)
result = enc.transform(X).toarray()
result

#依然可以直接一步到位，但为了给大家展示模型属性，所以还是写成了三步
OneHotEncoder(categories='auto').fit_transform(X).toarray()

#依然可以还原
pd.DataFrame(enc.inverse_transform(result))

enc.get_feature_names()

result
result.shape

#axis=1,表示跨行进行合并，也就是将量表左右相连，如果是axis=0，就是将量表上下相连
newdata = pd.concat([data,pd.DataFrame(result)],axis=1)

newdata.head()

newdata.drop(["Sex","Embarked"],axis=1,inplace=True)

newdata.columns = ["Age","Survived","Female","Male","Embarked_C","Embarked_Q","Embarked_S"]

newdata.head()

处理连续型特征：二值化与分段

sklearn.preprocessing.Binarizer

根据阈值将数据二值化（将特征值设置为0或1），用于处理连续型变量。
大于阈值的值映射为1，而小于或等于阈值的值映射为0。
默认阈值为0时，特征中所有的正值都映射到1。二值化是对文本计数数据的常见操作，分析人员可以决定仅考虑某种现象的存在与否。它还可以用作考虑布尔随机变量的估计器的预处理步骤（例如，使用贝叶斯设置中的伯努利分布建模）。

#将年龄二值化

data_2 = data.copy()

from sklearn.preprocessing import Binarizer
X = data_2.iloc[:,0].values.reshape(-1,1)               #类为特征专用，所以不能使用一维数组
transformer = Binarizer(threshold=30).fit_transform(X)

transformer

preprocessing.KBinsDiscretizer

这是将连续型变量划分为分类变量的类，能够将连续型变量排序后按顺序分箱后编码。总共包含三个重要参数：
在这里插入图片描述

from sklearn.preprocessing import KBinsDiscretizer

X = data.iloc[:,0].values.reshape(-1,1) 
est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
est.fit_transform(X)

#查看转换后分的箱：变成了一列中的三箱
set(est.fit_transform(X).ravel())

est = KBinsDiscretizer(n_bins=3, encode='onehot', strategy='uniform')
#查看转换后分的箱：变成了哑变量
est.fit_transform(X).toarray()

Gshiner

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【机器学习第三周】简单的数据预处理和特征工程

梳理大纲：简单的数据预处理和特征工程【1】数据归一化：无量纲化：最值归一化、均值方差归一化及sklearn中的Scaler【2】特征工程：缺失值与特征处理缺失值处理 + 分类型特征处理（编码与哑变量）+ 连续型特征处理（二值化与分段）参考资料:机器学习西瓜书以下微信文章 From【木东居士】公众号From 机器学习小组：由【木东居士】公众号定期发起对数据感兴趣...
复制链接

扫一扫