特征选择

本篇文章我是按照自己的学习需求,不同的部分,我在之后会随着学习不断的完善,敬请谅解!

特征选择分为三种:过滤式、包裹式以及嵌入式

  • 过滤式:先对数据集进行特征选择,然后训练分类器
  • 包裹式:直接把学习器的性能作为评价子集的标准
  • 嵌入式:

过滤式

包裹式

RFE

这是普通的递归消除特征算法,是基于顶层的特征选择算法,建立在基于模型的特征选择方法基础之上的。使用回归和SVM,在不同的子集上建立模型,然后汇总确定最终的特征。

RFE通过反复构建模型,选择出最好的或者(最差的)特征,把选出来的特征放到一边,然后在剩余的特征集上重复这个过程,直到所有的特征都遍历了。这个过程特征被消除的次序就是特征的排序。

RFE的稳定性,取决于在迭代时,底层所用的模型。例如,没有经过正则化的回归模型是不稳定的,因此RFE就是不稳定的。如果采用的是Lasso/Ridge,正则化的回归是稳定的,因此RFE也是稳定的。

from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import RFE
lr = LinearRegression()
rfe = RFE(estimator=lr,n_features_to_select=3)
# estimator 估计函数,底层的回归模型
# n_features_to_select 特征选择的个数
rfe.fit(data,label)
# rfe.ranking_ 表示特征的重要程度,特征越重要 排名越靠前
print(sorted(zip(map(lambda x:round(x,4), rfe.ranking_), name)))
# 将feature与排名捆绑一起输出
print(rfe.n_features_)
# 输出所选择的特征的个数 ,输出的值与上面 n_features_to_select的值相等

RFECV

RFECV是基于交叉验证的,这里我说一点我是看着一个论文里说通过使用RFE的交叉验证以及分层选择才过来的,然后又查了查果然有他说的这个东西,看来这点还是没造假
PS:我就是想从我自己的6670个特征中选点有用的特征对我的数据进行分类预测,其实就是Paper中说的FC矩阵中,由于是对称的,我只需要对上三角或者下三角进行特征提取就可以了
在这里插入图片描述
文章中提到:使用SVM-RFE的分4层的交叉验证,stratified 4 fold cross validation进行处理

from sklearn.feature_selection import RFECV
import matplotlib.pyplot as plt

svc =SVC(kernel="linear")
rfecv =RFECV(estimator=svc,step=1,cv=StratifiedKFold(2),scoring='accuracy')
#step 表示每次迭代所剔除的特征的个数
rfecv.fit(data, label)
print("Optimal number of features: %d" % rfecv.n_features)

# 绘图
plt.figure()
plt.xlabel("Number of features selected")
plt.ylabel("Cross validation score")
plt.plot(range(1,len(refcv.grid_scores_)+1), rfecv.grid_scores_)
# range(1,len(rfecv.grid_scores_)+1) 表示 X 轴绘制的起始位置
# x轴表示选取的特征的个数 len表示实际长度但是由于从1开始所以需要加1

在这里插入图片描述
上图是我基于我的6670个特征绘制的,在控制台显示最佳的特征个数为29个,以下是全部代码

import matplotlib.pyplot as plt
import numpy as np 
import pandas as pd
from sklearn.feature_selection import RFECV
from sklearn.model_selection import StratifiedKFold
from sklearn.svm import SVC
# 导入数据
data = pd.read_excel(r'path')
label = pd.read_excel(r'path')
# 数据格式转换为numpy
data = np.array(data)
label = np.array(label)
# RFECV
svc = SVC(kernel="linear")
rfecv=RFECV(estimator=svc,step=1,cv=StratifiedKFold(2),scoring='accuary')
rfecv.fit(data,label)
print("Optimal number of features: %d"% rfecv.n_features_)
# 绘制图像
plt.figure()
plt.xlabel("Number of features selected")
plt.ylabel("Cross validation score")
plt.plot(range(1,len(rfecv.grid_scores_)+1),rfecv.grid_scores_)
plt.show()

嵌入式

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值