【机器学习】【特征选择】4.嵌入法Embedded

Embedded嵌入法

嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行

先使 用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大到小选择特征

这些权值系数往往代表了特征对于模型的某种贡献或某种重要性

这些权值系 数往往代表了特征对于模型的某种贡献或某种重要性

缺点

过滤法中使用的统计量可以使用统计知识和常识查找范围(如p值应当低于显著性水平0.05),
而嵌入法中使用 的权值系数却没有这样的范围可找

或许需要学习曲线,或者根据模型本身的某些性质去判断这个超参数的最佳值

方法:

sklearn.feature_selection.SelectFromModel (estimator, threshold=None, prefit=False, norm_order=1, max_features=None)

SelectFromModel是一个元变换器

可以与任何在拟合后具有coef_,feature_importances_属性或参数中可选惩罚项的评估器一起使用

比如随机森林和树模型就具有属性feature_importances_逻辑回归就带有l1和l2惩罚 项,线性支持向量机也支持l2惩罚项

参数 说明

  • estimator 使用的模型评估器,只要是带feature_importances_或者coef_属性,或带有l1和l2惩罚 项的模型都可以使用
    threshold 特征重要性的阈值,重要性低于这个阈值的特征都将被删除
  • prefit 默认False,判断是否将实例化后的模型直接传递给构造函数。如果为True,则必须直接 调用fit和transform,不能使用fit_transform,并且SelectFromModel不能与 cross_val_score,GridSearchCV和克隆估计器的类似实用程序一起使用。
  • norm_order k可输入非零整数,正无穷,负无穷,默认值为1 在评估器的coef_属性高于一维的情况下,用于过滤低于阈值的系数的向量的范数的阶 数。
  • max_features 在阈值设定下,要选择的最大特征数。要禁用阈值并仅根据max_features选择,请设置 threshold = -np.inf
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier as RFC

RFC_ = RFC(n_estimators =10,random_state=0)#随机森林实例化
X_embedded = SelectFromModel(RFC_,threshold=0.005).fit_transform(X,y)#实例化selectFromModel,使用的元数据
#在这里我只想取出来有限的特征。0.005这个阈值对于有780个特征的数据来说,是非常高的阈值,因为平均每个特征
#只能够分到大约0.001的feature_importances_(每个特征分到的数值:1/780)
X_embedded.shape
__________________________
(42000,47)
__________________________
#模型的维度明显被降低了
#同样的,我们也可以画学习曲线来找最佳阈值
#======【TIME WARNING:10 mins】======#
import numpy as np
import matplotlib.pyplot as plt
RFC_.fit(X,y).feature_importances_

threshold = np.linspace(0,(RFC_.fit(X,y).feature_importances_).max(),20)
#linspace(start,end,取出的数量)
score = []
for i in threshold:
    X_embedded = SelectFromModel(RFC_,threshold=i).fit_transform(X,y)
    once = cross_val_score(RFC_,X_embedded,y,cv=5).mean()#交叉验证
    score.append(once)
plt.plot(threshold,score)
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oIMcvS6B-1598967486100)(C:\Users\hp\Desktop\数据特征选择\嵌入法的学习曲线.png)]

X_embedded = SelectFromModel(RFC_,threshold=0.00067).fit_transform(X,y)
X_embedded.shape
_________________
(42000,392)
_________________
cross_val_score(RFC_,X_embedded,y,cv=5).mean()
_________________
0.9399

比我们在方差过滤的时候选择中位数过滤出来的结果392列要小,并且 交叉验证分数0.9399高于方差过滤后的结果0.9388,这是由于嵌入法比方差过滤更具体到模型的表现的缘故

换一 个算法,使用同样的阈值,

使用细化的学习曲线来找到最佳值:

score2 = []
for i in np.linspace(0,0.00134,20):
    X_embedded = SelectFromModel(RFC_,threshold=i).fit_transform(X,y)
    once = cross_val_score(RFC_,X_embedded,y,cv=5).mean()
    score2.append(once)
plt.figure(figsize=[20,5])
plt.plot(np.linspace(0,0.00134,20),score2)
plt.xticks(np.linspace(0,0.00134,20))
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UHJ52JI8-1598967486102)(C:\Users\hp\Desktop\数据特征选择\嵌入法细化学习曲线.png)]

X_embedded = SelectFromModel(RFC_,threshold=0.000564).fit_transform(X,y)
X_embedded.shape
________________________________
(42000,340)
________________________________
cross_val_score(RFC_,X_embedded,y,cv=5).mean()
________________________________
0.9408335
________________________________
#=====【TIME WARNING:2 min】=====#
#我们可能已经找到了现有模型下的最佳结果,如果我们调整一下随机森林的参数呢?
cross_val_score(RFC(n_estimators=100,random_state=0),X_embedded,y,cv=5).mean()
_______________________________
0.9639528

在嵌入法下,我们很容易就能够实现特征选择的目标:减少计算量,提升模型表现

大型数据中,我们还是会优先考虑过滤法

  • 6
    点赞
  • 42
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
网络入侵检测是通过对网络流量数据进行分析,检测是否存在恶意攻击的过程。基于机器学习的网络入侵检测技术通常需要选择一组合适的特征,用于训练分类器,以区分正常流量和恶意流量。特征选择是网络入侵检测技术的重要组成部分,其目的是从原始数据中选取最具有区分性和代表性的特征,以提高分类器的准确性和效率。 以下是一些常用的特征选择: 1. 过滤(Filter Method):该方独立于分类器,通过对特征进行统计分析,选择与分类目标相关性最强的特征。常用的统计量有卡方检验、互信息、相关系数等。 2. 封装(Wrapper Method):该方与具体分类器密切相关,通过特征子集的交叉验证,评估分类器性能,选出最佳特征子集。代表性算有递归特征消除(Recursive Feature Elimination,RFE)和遗传算(Genetic Algorithm,GA)。 3. 嵌入Embedded Method):该方特征选择融入到分类器训练过程中,根据分类器的性能评估每个特征的贡献,逐步筛选出最优特征。代表性算有L1正则化、决策树、随机森林等。 在选择特征时,需要根据具体问题和数据集的特点,选择最适合的特征选择。同时,需要注意特征选择过程中可能出现的问题,如特征相关性、过拟合、信息损失等。因此,特征选择需要谨慎进行,结合领域知识和实际经验进行评估。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值