特征选择

最新推荐文章于 2024-05-10 13:36:35 发布

The_best_man

最新推荐文章于 2024-05-10 13:36:35 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/The_best_man/article/details/103301220

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本篇文章我是按照自己的学习需求，不同的部分，我在之后会随着学习不断的完善，敬请谅解！

特征选择分为三种：过滤式、包裹式以及嵌入式

过滤式：先对数据集进行特征选择，然后训练分类器
包裹式：直接把学习器的性能作为评价子集的标准
嵌入式：

过滤式

包裹式

RFE

这是普通的递归消除特征算法，是基于顶层的特征选择算法，建立在基于模型的特征选择方法基础之上的。使用回归和SVM，在不同的子集上建立模型，然后汇总确定最终的特征。

RFE通过反复构建模型，选择出最好的或者(最差的)特征，把选出来的特征放到一边，然后在剩余的特征集上重复这个过程，直到所有的特征都遍历了。这个过程特征被消除的次序就是特征的排序。

RFE的稳定性，取决于在迭代时，底层所用的模型。例如，没有经过正则化的回归模型是不稳定的，因此RFE就是不稳定的。如果采用的是Lasso/Ridge，正则化的回归是稳定的，因此RFE也是稳定的。

from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import RFE
lr = LinearRegression()
rfe = RFE(estimator=lr,n_features_to_select=3)
# estimator 估计函数，底层的回归模型
# n_features_to_select 特征选择的个数
rfe.fit(data,label)
# rfe.ranking_ 表示特征的重要程度，特征越重要 排名越靠前
print(sorted(zip(map(lambda x:round(x,4), rfe.ranking_), name)))
# 将feature与排名捆绑一起输出
print(rfe.n_features_)
# 输出所选择的特征的个数 ，输出的值与上面 n_features_to_select的值相等

RFECV

RFECV是基于交叉验证的，这里我说一点我是看着一个论文里说通过使用RFE的交叉验证以及分层选择才过来的，然后又查了查果然有他说的这个东西，看来这点还是没造假
PS:我就是想从我自己的6670个特征中选点有用的特征对我的数据进行分类预测，其实就是Paper中说的FC矩阵中，由于是对称的，我只需要对上三角或者下三角进行特征提取就可以了
在这里插入图片描述
文章中提到：使用SVM-RFE的分4层的交叉验证，stratified 4 fold cross validation进行处理

from sklearn.feature_selection import RFECV
import matplotlib.pyplot as plt

svc =SVC(kernel="linear")
rfecv =RFECV(estimator=svc,step=1,cv=StratifiedKFold(2),scoring='accuracy')
#step 表示每次迭代所剔除的特征的个数
rfecv.fit(data, label)
print("Optimal number of features: %d" % rfecv.n_features)

# 绘图
plt.figure()
plt.xlabel("Number of features selected")
plt.ylabel("Cross validation score")
plt.plot(range(1,len(refcv.grid_scores_)+1), rfecv.grid_scores_)
# range(1,len(rfecv.grid_scores_)+1) 表示 X 轴绘制的起始位置
# x轴表示选取的特征的个数 len表示实际长度但是由于从1开始所以需要加1

在这里插入图片描述
上图是我基于我的6670个特征绘制的，在控制台显示最佳的特征个数为29个，以下是全部代码

import matplotlib.pyplot as plt
import numpy as np 
import pandas as pd
from sklearn.feature_selection import RFECV
from sklearn.model_selection import StratifiedKFold
from sklearn.svm import SVC
# 导入数据
data = pd.read_excel(r'path')
label = pd.read_excel(r'path')
# 数据格式转换为numpy
data = np.array(data)
label = np.array(label)
# RFECV
svc = SVC(kernel="linear")
rfecv=RFECV(estimator=svc,step=1,cv=StratifiedKFold(2),scoring='accuary')
rfecv.fit(data,label)
print("Optimal number of features: %d"% rfecv.n_features_)
# 绘制图像
plt.figure()
plt.xlabel("Number of features selected")
plt.ylabel("Cross validation score")
plt.plot(range(1,len(rfecv.grid_scores_)+1),rfecv.grid_scores_)
plt.show()

嵌入式

The_best_man

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
特征选择

本篇文章我是按照自己的学习需求，不同的部分，我在之后会随着学习不断的完善，敬请谅解！特征选择分为三种：过滤式、包裹式以及嵌入式过滤式：先对数据集进行特征选择，然后训练分类器包裹式：直接把学习器的性能作为评价子集的标准嵌入式：过滤式包裹式RFE这是普通的递归消除特征算法，是基于顶层的特征选择算法，建立在基于模型的特征选择方法基础之上的。使用回归和SVM，在不同的子集上建立模型，然...
复制链接

扫一扫