特征工程学习笔记

最新推荐文章于 2024-11-03 16:11:09 发布

syphomn

最新推荐文章于 2024-11-03 16:11:09 发布

阅读量495

点赞数

分类专栏：深度学习与机器学习文章标签：机器学习 sklearn python

本文链接：https://blog.csdn.net/liuqihang11/article/details/119939827

版权

深度学习与机器学习专栏收录该内容

13 篇文章 21 订阅

订阅专栏

0 声明

本文主要内容来自视频'【2020机器学习全集】菜菜的sklearn完整版，价值4999元的最全机器学习sklearn全集，赶紧收藏_哔哩哔哩_bilibili'，课件来自“https://pan.baidu.com/s/1Xl4o0PMA5ysUILeCKvm_2w，提取码：a967”。

除了参考上述视频等资料以外，'【特征工程】呕心之作——深度了解特征工程_wx:wu805686220-CSDN博客'也对我有很大的帮助。

本文是一个学习笔记，不是一篇帮助新人入门的文章，其内容主要针对本人的薄弱环节，没有面面俱到，不一定适用所有人。

1 数据预处理

1.1 数据无量纲化

无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化、归一化。梯度和矩阵为核心的算法中，譬如逻辑回归，支持向量机，神经网络，无量纲化可以加快求解速度；在距离类模型，譬如K近邻，K-Means聚类中，无量纲化可以提升模型精度，避免某一个取值范围特别大的特征对距离计算造成影响。（一个特例是决策树和树的集成算法，不无量纲化，它们就可以把任意数据都处理得很好。）

1.1.1 归一化（Normalization or Min-Max Scaling）

数据归一化后会不会改变数据原有的分布，归一化公式如下：

$x^{*}=\frac{x-\min (x)}{\max (x)-\min (x)}$

其中，min(x)表示每列数据的最小值，max(x)为每列数据的最大值，x*为归一化结果

'''对每列（特征）归一化'''
from sklearn.preprocessing import MinMaxScaler # 导入归一化模块

# feature_range控制压缩数据范围，默认[0,1]
scaler = MinMaxScaler(feature_range=[low,up]) # 实例化
result_ = scaler.fit_transform(data) # 归一化数据结果

data = scaler.inverse_transform(result) # 将数据恢复至归一化之前

1.1.2 标准化（Standardization or Z-score normalization）

数据标准化后会变为均值为0，方差为1的数据，但是不会改变数据原有的分布，一定要注意即使均值为0、方差为1也不代表数据符合标准正态分布。

$x^{*}=\frac{x-\mu}{\sigma}$

其中，miu为每列数据均值，sigma为每列数据标准差，x*为标准化结果。

'''对每列数据执行标准化'''

from sklearn.preprocessing import StandardScaler # 导入标准化工具包

scaler = StandardScaler() # 实例化
x_std = scaler.fit_transform(data) # 完成标准化

x = scaler.inverse_transform(x_std) # 将数据恢复至标准化之前

1.1.3 标准化与归一化的选择

大多数机器学习算法中，会选择StandardScaler来进行特征缩放，因为MinMaxScaler对异常值非常敏感。在PCA，聚类，逻辑回归，支持向量机，神经网络这些算法中，StandardScaler往往是最好的选择；MinMaxScaler在不涉及距离度量、梯度、协方差计算以及数据需要被压缩到特定区间时使用广泛，比如数字图像处理中量化像素强度时，都会使用MinMaxScaler将数据压缩于[0,1]区间之中。实际使用时，两者可都试试。

1.2 缺失值处理

除了删除带有缺失值的特征或者样本外，还可以对其进行填充操作，通用的填充方法有常数填充、均值填充、众数填充、上下行数据填充以及众数填充等

1.2.1 sklearn中的填充

from sklearn.impute import SimpleImputer # 导入填充工具包

Age = data.loc[:,"Age"].values.reshape(-1,1) # sklearn当中特征矩阵必须是二维，.values得到的是一维数组

imp_mean = SimpleImputer() # 实例化，默认均值填补
imp_median = SimpleImputer(strategy="median") # 用中位数填补
imp_0 = SimpleImputer(strategy="constant",fill_value=0) # 用0填补
imp_most_frequent = SimpleImputer(strategy="most_frequent") # 用众数填补

imp_mean = imp_mean.fit_transform(Age) # fit_transform一步完成调取结果
imp_median = imp_median.fit_transform(Age)
imp_0 = imp_0.fit_transform(Age)
imp_most_frequent = imp_most_frequent.fit_transform(Age)

1.2.2 pandas中的填充

import pandas as pd

data['灰度分'] = data['灰度分'].fillna('-99') # 采用固定值填充

data['灰度分'] = data['灰度分'].fillna(data['灰度分'].mean())) # 采用均值填充

data['灰度分'] = data['灰度分'].fillna(data['灰度分'].mode())) # 采用众数填充

data['灰度分'] = data['灰度分'].fillna(method='pad') # 使用前一个数据填充

data['灰度分'] = data['灰度分'].fillna(method='bfill') # 使用后一个数据填充

data['灰度分'] = data['灰度分'].interpolate() # 使用插值法填充

1.2.3 使用算法填充

也可以使用随机森林、KNN等算法填充缺失数据，填充效果一般好于直接使用均值、众数等填充。

1.3 特征转换

1.3.1 离散型数据特征

在机器学习中，大多数算法，譬如逻辑回归，支持向量机SVM，k近邻算法等都只能够处理数值型数据，不能处理文字，然而在现实中，许多标签和特征在数据收集完毕的时候，都不是以数字来表现的，为了让数据适应算法和库，必须将数据进行编码，将文字型数据转换为数值型。

若变量之间完全独立，不能比较，也不能运算，这种变量叫做名义变量，比如机舱座位编号。名义变量不可以使用OrdinalEncoder与LabelEncoder转化为数值型，而应该使用OneHotEncoder，因为OneHotEncoder能够告诉算法这些都是相互独立的数据，不能进行比较与运算；

from sklearn.preprocessing import OneHotEncoder
X = data.iloc[:,1]
enc = OneHotEncoder(categories='auto')
result = enc.fit_transform(X).toarray()
name = enc.get_feature_names() # 获取每个编码对应的属性，每列编码代表一个属性
X = pd.DataFrame(enc.inverse_transform(result)) # 还原为编码前的数据

若变量之间有大小的概念，但不能进行运算，这种变量叫做有序变量，比如学历。有序变量可以使用OrdinalEncoder与LabelEncoder转化为数值型；

若变量之间有大小的概念，也可以进行运算，这种变量叫做有距变量。比如身高、体重。有距变量也可以使用OrdinalEncoder与LabelEncoder转化为数值型。

from sklearn.preprocessing import LabelEncoder # 这个是将标签转换为数值型的专用类

y = data.iloc[:,-1] # 要输入的是标签，不是特征矩阵，所以允许一维
le = LabelEncoder() # 实例化
label = le.fit_transform(y)
le.classes_ # 属性.classes_查看标签中究竟有多少类
data.iloc[:,-1] = label # 让标签等于我们运行出来的结果，整个编码结束
y = le.inverse_transform(label) #使用inverse_transform可以逆转回编码之前

# 下面是一个更加简洁的形式
data.iloc[:,-1] = LabelEncoder().fit_transform(data.iloc[:,-1])

from sklearn.preprocessing import OrdinalEncoder # 特征专用，能够将分类特征转换为分类数值

OrdinalEncoder().fit(data_.iloc[:,1:-1]).categories_ # 查看标签中究竟有多少类
data_.iloc[:,1:-1] = OrdinalEncoder().fit_transform(data_.iloc[:,1:-1])

1.3.2 连续性数据特征

1.3.2.1 二值化

特征的二值化处理是将数值型数据输出为布尔类型。其核心在于设定一个阈值，当样本数大于该阈值时，输出为1，小于等于该阈值时输出为0。

from sklearn.preprocessing import Binarizer # 导入二值化需要的模块

X = data_2.iloc[:,0].values.reshape(-1,1) #类为特征专用，所以不能使用一维数组
transformer = Binarizer(threshold=30).fit_transform(X)

1.3.2.2 分箱处理（数值型转化为类别型）

将连续型变量划分为分类变量的类，能够将连续型变量排序后按顺序分箱后编码。主要使用的是preprocessing.KBinsDiscretizer类。该类主要包含三个参数：

n_bins

每个特征中分箱的个数，默认5，一次会被运用到所有导入的特征

encode

特征编码的方式，默认"onehot"

"ordinal":每个特征的每个箱都被编码为一个整数，返回每一列是一个特征，每个特征下含有不同整数编码的箱的矩阵；

"onehot-dense":做哑变量，之后返回一个密集数组

strategy

用来定义箱宽的方式，默认"quantile"；

"uniform":表示等宽分箱，即每个特征中的每个箱的最大值之间的差为(特征.max()-特征.min())/(n_bins)；

"quantile":表示等位分箱，即每个特征中的每个箱内的样本数量都相同；

"kmeans":表示按聚类分箱，每个箱中的值到最近的一维k均值聚类的簇心得距离都相同

from sklearn.preprocessing import KBinsDiscretizer

X = data.iloc[:,0].values.reshape(-1,1)
est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
est.fit_transform(X)

# 查看转换后分的箱：变成了一列中的三箱
set(est.fit_transform(X).ravel())

est = KBinsDiscretizer(n_bins=3, encode='onehot', strategy='uniform')

# 查看转换后分的箱：变成了哑变量
est.fit_transform(X).toarray()

2 特征选择

不是所有的特征都是平等的，从大量的特征中选择少量的有用特征就是所谓的特征选择。特征选择主要有过滤法、嵌入法和Wrapper法。

2.1 过滤法

过滤方法通常用作预处理步骤，特征选择完全独立于任何机器学习算法。它是根据各种统计检验中的分数以及相关性的各项指标来选择特征。过滤法的主要对象是需要遍历特征或升维的算法，而过滤法的主要目的是在维持算法表现的前提下，帮助算法降低计算成本。K近邻算法，单棵决策树，支持向量机，神经网络，回归算法，都需要遍历特征或升维来进行运算，所以他们本身的运算量就很大，需要的时间就很长，因此方差过滤这样的特征选择对他们来说就尤为重要。而随机森林随机选取特征进行分枝，本身运算就非常快速，因此特征选择对它来说效果平平——无论过滤法如何降低特征的数量，随机森林也只会选取固定数量的特征来建模。过滤法包括方差过滤、相关性过滤。

2.1.1 方差过滤

方差过滤通过特征本身的方差来筛选特征的类。比如一个特征本身的方差很小，就表示样本在这个特征上基本没有差异，可能特征中的大多数值都一样，甚至整个特征的取值都相同，那这个特征对于样本区分没有什么作用。

from sklearn.feature_selection import VarianceThreshold

selector = VarianceThreshold() # 实例化，括号里面填方差数值，不填参数默认过滤掉方差为0
X_var0 = selector.fit_transform(X) # 获取删除不合格特征之后的新特征矩阵

2.1.2 方差阈值的选择

要选定最优的方差阈值，可以画学习曲线，找模型效果最好的点。但现实中往往不会这样去做，因为这样会耗费大量的时间。只会使用阈值为0或者阈值很小的方差过滤，来优先消除一些明显用不到的特征，然后会选择更优的特征选择方法继续削减特征数量。

2.1.3 一个思考

为什么过滤法对随机森林无效，却对树模型有效？

从算法原理上来说，传统决策树需要遍历所有特征，计算不纯度后进行分枝，而随机森林却是随机选择特征进行计算和分枝，因此随机森林的运算更快，过滤法对随机森林无用，对决策树却有用。

在sklearn中，决策树和随机森林都是随机选择特征进行分枝，但是决策树在建模过程中随机抽取的特征数目却远远超过随机森林当中每棵树随机抽取的特征数目。因此，过滤法对随机森林无用，却对决策树有用，也因此，在sklearn中，随机森林中的每棵树都比单独的一棵决策树简单得多，高维数据下的随机森林的计算比决策树快很多。

2.2 相关性过滤

方差挑选完毕之后，就要考虑下一个问题：标签与特征之间的相关性了。需要选出与标签相关且有意义的特征，因为这样的特征能够提供大量信息。如果特征与标签无关，那只会白白浪费计算内存，可能还会给模型带来噪音。在sklearn当中，有三种常用的方法来评判特征与标签之间的相关性：卡方检验，F检验，互信息检验三种。

2.2.1 卡方检验

卡方检验用于检验定性自变量对定性因变量的相关性，专门针对离散型标签（即分类问题）的相关性过滤。卡方检验类feature_selection.chi2计算每个非负特征和标签之间的卡方统计量，并依照卡方统计量由高到低为特征排名。再结合feature_selection.SelectKBest这个可以输入”评分标准“来选出前K个分数最高的特征的类，可以借此除去最可能独立于标签，与分类目的无关的特征。

from sklearn.feature_selection import SelectKBest # 挑选特征
from sklearn.feature_selection import chi2 # 执行卡方检验

X_fschi = SelectKBest(chi2, k=300).fit_transform(X_fsvar, y)
# k为需要挑选出的特征个数
# chi2执行卡方检验
# X_fsvar为待验证的特征，y为标签

卡方检验的难点在于参数K的选取，比较常规的办法是绘制学习曲线，但是运行这条曲线的时间非常地长，一般不会在大规模数据中考虑使用。另外一种高效的方法是p值筛选。卡方检验的本质是推测两组数据之间的差异，其检验的原假设是”两组数据是相互独立的”。卡方检验返回卡方值和P值两个统计量，其中卡方值很难界定有效的范围，一般使用P等于0.01或0.05作为显著性水平，即p值判断的边界。当P大于0.01或者0.05时，可认为两组数据是相互独立的，换言之，筛选特征时，希望P值越小越好。

chivalue, pvalues_chi = chi2(X_fsvar,y) # 第一个为卡方值，第二个为P值，返回的是一个一维数组

#要消除所有p值大于设定值，比如0.05或0.01的特征，k值按照以下设置：
k = chivalue.shape[0] - (pvalues_chi > 0.05).sum()

X_fschi = SelectKBest(chi2, k).fit_transform(X_fsvar, y) # 选取k个特征

2.2.2 F检验

F检验，又称ANOVA，方差齐性检验，是用来捕捉每个特征与标签之间线性关系的过滤方法。它可以做回归也可以做分类。因此包含feature_selection.f_classif（F检验分类）和feature_selection.f_regression（F检验回归）两个类。其中F检验分类用于标签是离散型变量的数据，而F检验回归用于标签是连续型变量的数据。需要注意的是，F检验在数据服从正态分布时效果会非常稳定，因此如果使用F检验过滤，需要先将数据转换成服从正态分布的方式。使用方法与卡方检验类似，也是需要和SelectKBest连用，直接通过输出的统计量来判断到底要设置一个什么样的K，K的取值也可以通过P值来设置。

F检验与卡方检验的区别是F检验既可以做回归，也可以做分类，而卡方检验只用于分类。

from sklearn.feature_selection import f_classif # 导入F检验分类器

F, pvalues_f = f_classif(X_fsvar,y) # 返回F与p值

k = F.shape[0] - (pvalues_f > 0.05).sum() # 根据返回的p值设定K

X_fsF = SelectKBest(f_classif, k).fit_transform(X_fsvar, y) # 选取k个特征

2.2.3 互信息法

互信息法是用来捕捉每个特征与标签之间的任意关系（包括线性和非线性关系）的过滤方法，但是不能用于稀疏矩阵。和F检验相似，互信息法既可以做回归也可以做分类，包含两个类feature_selection.mutual_info_classif（互信息分类）和feature_selection.mutual_info_regression（互信息回归）。这两个类的用法和参数都和F检验一模一样，另外也需要与SelectKBest连用。

互信息法与F检验的区别是F检验只能够找出线性关系，而互信息法可以找出任意关系；互信息法不像F检验一样返回p值与F值，而是返回“每个特征与目标之间的互信息量的估计”，这个估计量在[0,1]之间取值，为0则表示两个变量独立，为1则表示两个变量完全相关。

from sklearn.feature_selection import mutual_info_classif as MIC # 导入互信息法分类器
result = MIC(X_fsvar,y) 

k = result.shape[0] - sum(result <= 0)

X_fsmic = SelectKBest(MIC, k).fit_transform(X_fsvar, y)

2.2.4 小结

过滤法一般不会在数据集上进行迭代计算，执行时间比较短，但是k值得选择权交给了用户，具有较强的主观性。对于方差检验、卡方检验、互信息法与F检验四种方法，一般先考虑使用方差过滤，然后使用互信息法来捕捉标签与特征之间的相关性，而卡方检验（只用于分类）与F检验（对数据分布有要求）因为其存在的一些限制，一般不会考虑使用。

2.3 嵌入法

嵌入法是一种让算法自己决定使用哪些特征的方法。先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据权值系数从大到小选择特征。这些权值系数往往代表了特征对于模型的某种贡献或某种重要性，基于这些重要性就可以实现特征的选择。

相比于过滤法，嵌入法的结果会更加精确到模型的效用本身，对于提高模型效力有更好的效果。并且，由于考虑特征对模型的贡献，因此无关的特征（需要相关性过滤的特征）和无区分度的特征（需要方差过滤的特征）都会因为缺乏对模型的贡献而被删除掉。

嵌入法存在的问题在于计算速度也会和应用的算法有很大的关系。如果采用计算量很大，计算缓慢的算法，嵌入法本身也会非常耗时耗力。在算法本身很复杂的时候，过滤法的计算远远比嵌入法要快，大型数据中，还是会优先考虑过滤法。

sklearn提供了feature_selection.SelectFromModel模块来实现嵌入法，它有两个比较重要的参数：estimator与threshold，estimator表示使用的模型评估器，只要是带feature_importances_或者coef_属性，或带有I1和I2惩罚项的模型都可以使用；threshold表示特征重要性的阈值，重要性低于这个阈值的特征都将被删除。对于有feature_importances_的模型来说（随机森林和树模型），若重要性低于提供的阈值参数，则认为这些特征不重要并被移除。feature_importances_的取值范围是[0,1]，如果设置阈值很小，比如0.001，就可以删除那些对标签预测完全没贡献的特征。如果设置得很接近1，可能只有一两个特征能够被留下。

from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier as RFC

RFC_ = RFC(n_estimators =10,random_state=0) # 采用随机森林分类器作为模型评估器

X_embedded = SelectFromModel(RFC_,threshold=0.005).fit_transform(X,y) # 重要性低于0.005都被过滤

2.4 Wrapper法

包装法也是一个特征选择和算法训练同时进行的方法，与嵌入法十分相似，它也是依赖于算法自身的选择，比如coef_属性或feature_importances_属性来完成特征选择。但不同的是，它往往使用一个目标函数作为黑盒来选取特征，而不是通过用户输入某个评估指标或统计量的阈值。最典型的目标函数是递归特征消除法（Recursive feature elimination, 简写为RFE）。它是一种贪婪的优化算法，旨在找到性能最佳的特征子集。它反复创建模型，并在每次迭代时保留最佳特征或剔除最差特征，下一次迭代时，它会使用上一次建模中没有被选中的特征来构建下一个模型，直到所有特征都耗尽为止。然后，它根据自己保留或剔除特征的顺序来对特征进行排名，最终选出一个最佳子集。

# n_features_to_select是想要选择的特征个数
# step表示每次迭代中希望移除的特征个数
# .support_：返回所有的特征的是否最后被选中的布尔矩阵
# .ranking_返回所有特征重要性的排名

from sklearn.ensemble import RandomForestClassifier as RFC
from sklearn.feature_selection import RFE # 目标函数——梯度特征消除法

RFC_ = RFC(n_estimators =10,random_state=0) # 使用随机森林计算特征重要性
selector = RFE(RFC_, n_features_to_select=340, step=50).fit(X, y) # 选取特征
selector.support_.sum()
selector.ranking_
X_wrapper = selector.transform(X) # 返回选取的特征

2.5 特征选择总结

经验来说，过滤法更快速，但更粗糙。包装法和嵌入法更精确，比较适合具体到算法去调整，但计算量比较大，运行时间长。当数据量很大的时候，优先使用方差过滤和互信息法调整，再上其他特
征选择方法。使用逻辑回归时，优先使用嵌入法。使用支持向量机时，优先使用包装法。