【数据挖掘】使用RFE进行特征选择

最新推荐文章于 2024-09-20 13:56:19 发布

机器不学习我学习

最新推荐文章于 2024-09-20 13:56:19 发布

阅读量1.4k

点赞数 17

分类专栏：资深数据科学家之路文章标签：数据挖掘人工智能

本文链接：https://blog.csdn.net/augustme/article/details/139530221

版权

资深数据科学家之路专栏收录该内容

13 篇文章 2 订阅

订阅专栏

写在前面：
首先感谢兄弟们的订阅，让我有创作的动力，在创作过程我会尽最大能力，保证作品的质量，如果有问题，可以私信我，让我们携手共进，共创辉煌。

路虽远，行则将至；事虽难，做则必成。只要有愚公移山的志气、滴水穿石的毅力，脚踏实地，埋头苦干，积跬步以至千里，就一定能够把宏伟目标变为美好现实。

在这里插入图片描述

使用递归特征消除（RFE）进行特征选择是一个有效的方法，可以帮助你确定数据集中哪些特征对模型预测最为重要。以下是一个使用RFE进行特征选择的步骤指南：

1、介绍

数据准备：
首先，你需要有一个数据集，它通常包括多个特征（自变量）和一个目标变量（因变量）。确保数据已经过适当的预处理，例如处理缺失值、编码分类变量等。

选择模型和评估器：
RFE需要一个基础模型来评估特征的重要性。这个模型可以是任何可以提供特征重要性评估或系数的方法，如线性回归、逻辑回归、支持向量机、决策树等。

初始化RFE：
使用你选择的模型和评估器来初始化RFE对象。在初始化时，你需要指定n_features_to_select参数，它决定了RFE过程结束时应该保留多少特征。

拟合RFE并转换数据：
使用RFE对象的fit方法来拟合数据，并通过transform方法来获得减少特征后的数据集。fit_transform方法可以同时完成这两个步骤。

评估选择的特征：
在得到减少特征后的数据集后，你可以使用它来训练一个新的模型，并评估其性能。通过比较使用全部特征和使用RFE选择后的特征的模型性能，你可以了解特征选择对模型性能的影响。

获取选择的特征：
使用RFE对象的support_属性来确定哪些特征被选择，以及ranking_属性来查看特征的排名。

2、代码

from sklearn.datasets import load_iris  
from sklearn.feature_selection import RFE  
from sklearn.linear_model import LogisticRegression  
from sklearn.model_selection import train_test_split  
from sklearn.metrics import accuracy_score  
  
# 加载数据  
iris = load_iris()  
X = iris.data  
y = iris.target  
  
# 划分训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  
  
# 初始化模型和RFE对象  
model = LogisticRegression(solver='liblinear')  
rfe = RFE(model, n_features_to_select=2, step=1)  # 选择最重要的2个特征  
  
# 拟合RFE并转换数据  
X_train_rfe = rfe.fit_transform(X_train, y_train)  
X_test_rfe = rfe.transform(X_test)  
  
# 使用RFE选择后的特征训练模型  
model.fit(X_train_rfe, y_train)  
  
# 预测并评估模型性能  
y_pred = model.predict(X_test_rfe)  
accuracy = accuracy_score(y_test, y_pred)  
print(f"Accuracy with RFE selected features: {accuracy}")  
  
# 打印被选择的特征索引和排名  
print("Selected feature indices:", rfe.support_)  
print("Feature ranking:", rfe.ranking_)