Embedded嵌入法
嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行
先使 用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大到小选择特征
这些权值系数往往代表了特征对于模型的某种贡献或某种重要性
这些权值系 数往往代表了特征对于模型的某种贡献或某种重要性
缺点
过滤法中使用的统计量可以使用统计知识和常识来查找范围(如p值应当低于显著性水平0.05),
而嵌入法中使用 的权值系数却没有这样的范围可找
或许需要学习曲线,或者根据模型本身的某些性质去判断这个超参数的最佳值
方法:
sklearn.feature_selection.SelectFromModel (estimator, threshold=None, prefit=False, norm_order=1, max_features=None)
SelectFromModel是一个元变换器
可以与任何在拟合后具有coef_,feature_importances_属性或参数中可选惩罚项的评估器一起使用
比如随机森林和树模型就具有属性feature_importances_,逻辑回归就带有l1和l2惩罚 项,线性支持向量机也支持l2惩罚项
参数 说明
- estimator 使用的模型评估器,只要是带feature_importances_或者coef_属性,或带有l1和l2惩罚 项的模型都可以使用
threshold 特征重要性的阈值,重要性低于这个阈值的特征都将被删除 - prefit 默认False,判断是否将实例化后的模型直接传递给构造函数。如果为True,则必须直接 调用fit和transform,不能使用fit_transform,并且SelectFromModel不能与 cross_val_score,GridSearchCV和克隆估计器的类似实用程序一起使用。
- norm_order k可输入非零整数,正无穷,负无穷,默认值为1 在评估器的coef_属性高于一维的情况下,用于过滤低于阈值的系数的向量的范数的阶 数。
- max_features 在阈值设定下,要选择的最大特征数。要禁用阈值并仅根据max_features选择,请设置 threshold = -np.inf
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier as RFC
RFC_ = RFC(n_estimators =10,random_state=0)#随机森林实例化
X_embedded = SelectFromModel(RFC_,threshold=0.005).fit_transform(X,y)#实例化selectFromModel,使用的元数据
#在这里我只想取出来有限的特征。0.005这个阈值对于有780个特征的数据来说,是非常高的阈值,因为平均每个特征
#只能够分到大约0.001的feature_importances_(每个特征分到的数值:1/780)
X_embedded.shape
__________________________
(42000,47)
__________________________
#模型的维度明显被降低了
#同样的,我们也可以画学习曲线来找最佳阈值
#======【TIME WARNING:10 mins】======#
import numpy as np
import matplotlib.pyplot as plt
RFC_.fit(X,y).feature_importances_
threshold = np.linspace(0,(RFC_.fit(X,y).feature_importances_).max(),20)
#linspace(start,end,取出的数量)
score = []
for i in threshold:
X_embedded = SelectFromModel(RFC_,threshold=i).fit_transform(X,y)
once = cross_val_score(RFC_,X_embedded,y,cv=5).mean()#交叉验证
score.append(once)
plt.plot(threshold,score)
plt.show()
X_embedded = SelectFromModel(RFC_,threshold=0.00067).fit_transform(X,y)
X_embedded.shape
_________________
(42000,392)
_________________
cross_val_score(RFC_,X_embedded,y,cv=5).mean()
_________________
0.9399
比我们在方差过滤的时候选择中位数过滤出来的结果392列要小,并且 交叉验证分数0.9399高于方差过滤后的结果0.9388,这是由于嵌入法比方差过滤更具体到模型的表现的缘故
换一 个算法,使用同样的阈值,
使用细化的学习曲线来找到最佳值:
score2 = []
for i in np.linspace(0,0.00134,20):
X_embedded = SelectFromModel(RFC_,threshold=i).fit_transform(X,y)
once = cross_val_score(RFC_,X_embedded,y,cv=5).mean()
score2.append(once)
plt.figure(figsize=[20,5])
plt.plot(np.linspace(0,0.00134,20),score2)
plt.xticks(np.linspace(0,0.00134,20))
plt.show()
X_embedded = SelectFromModel(RFC_,threshold=0.000564).fit_transform(X,y)
X_embedded.shape
________________________________
(42000,340)
________________________________
cross_val_score(RFC_,X_embedded,y,cv=5).mean()
________________________________
0.9408335
________________________________
#=====【TIME WARNING:2 min】=====#
#我们可能已经找到了现有模型下的最佳结果,如果我们调整一下随机森林的参数呢?
cross_val_score(RFC(n_estimators=100,random_state=0),X_embedded,y,cv=5).mean()
_______________________________
0.9639528
在嵌入法下,我们很容易就能够实现特征选择的目标:减少计算量,提升模型表现