R语言使用 rfe(反向特征消除) 进行特征筛选,数据降维代码

3D_DLW

已于 2023-08-12 16:36:19 修改

阅读量3.3k

点赞数 2

分类专栏：遥感和地理信息 R 文章标签： rfe 特征筛选特征选择 R

于 2022-04-12 11:53:41 首次发布

本文链接：https://blog.csdn.net/DLW__/article/details/124120472

版权

遥感和地理信息同时被 2 个专栏收录

14 篇文章

订阅专栏

1 篇文章

订阅专栏

使用caret包中的rfe实现

library(caret)
library(randomForest)


# 参数
data.class_path <- 'D:\\Merged31.csv'  # 输入文件路径
save_path <- 'D:\\Merged31_select.csv'  # 输出文件路径
label_name <- 'Class.name.0.0.'  # 标签列名
label_delete <- 'unclassified'  # 要忽略的标签
rfe_sizes <- c(1:25,30,35,40,45,50,55,60,65,75)  # 可供选择的保留特征数量

# 读取数据
data<-read.csv(data.class_path, sep = ';', header = TRUE)
# 去除未分类行
data.class<-data[data[label_name] != label_delete,]
# 将标签类型转换为数
data.class[,label_name] <- as.numeric(data.class[,label_name])

# 分割训练集和测试集
set.seed(1)
ind<-sample(2, nrow(data.class), replace = TRUE, prob = c(0.7,0.3))
training<-data.class[ind==1,]
testing<-data.class[ind==2,]
len=length(training)

# 反向特征消除RFE
rfecontrol<-rfeControl(functions=rfFuncs, method="cv", number=10)
y<-as.numeric(training[,label_name])
X<-training[,-which(names(training) == label_name)]
results<-rfe(X,y,sizes=rfe_sizes,rfeControl=rfecontrol)
print(results)
# 显示选出的特征
print(results$optVariables)
# 绘图
plot(results, type=c("g", "o"))

# 导出结果
write.csv(data[c(results$optVariables, label_name)], save_path)
cat('Result Save in', save_path)

在这里插入图片描述

附录(Python中的RFE)

Python 中的 sklearn.feature_selection.RFE 没有R语言中的rfe那么完善, 主要是无法自动筛选特征数量, 也无法自动进行n折交叉验证。因此在选出相同数量的参数的前提下, 选出的参数与R得到的结果并不相同。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 导入RFE方法和线性回归基模型
from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVC

# 参数
n_select = 16  # 选择的特征数
data_path = r'D:\Merged31.csv'  # 输入文件路径
label_name = 'Class name(0 0)'  # 标签名称
label_delete = 'unclassified'  # 要忽略的标签
# estimator = LinearRegression()
# estimator = Ridge()
# estimator = Lasso(alpha=0.1)
# estimator = SVC(kernel="linear")
estimator = RandomForestRegressor()

np.random.seed(0)

# 读取数据
data = pd.read_csv(data_path, sep=';', header=0)
if label_delete:
    data = data[data[label_name] != label_delete].astype(float)

y = data[label_name]
X = data.drop([label_name], axis=1)
feature_names = X.columns.values

# 特征选择
X = (X - X.mean()) / (X.std() + 1e-8)  # 标准化
rfe = RFE(
    estimator=estimator,  # 基模型
    n_features_to_select=n_select,  # 选择特征数
)
sFeature = rfe.fit_transform(X, y)
print('Model Error:', rfe.score(X, y))

# 显示线性回归结果
plt.figure(figsize=(10, 8))
plt.scatter(X.iloc[:, 0], y, color='black')
plt.plot(X.iloc[:, 0], rfe.predict(X), color='blue', linewidth=3)
plt.xticks(())
plt.yticks(())
plt.show()
# 显示特征选择结果
plt.figure(figsize=(10, 8))
plt.bar(range(len(feature_names)), rfe.ranking_, color='b', align='center')
plt.xticks(range(len(feature_names)), feature_names, rotation=90)
plt.xlim([-1, len(feature_names)])
plt.show()

# 保存选择的特征
feature_names = feature_names[rfe.get_support()]
print('选择的特征为：', feature_names)
feature_names = np.append(feature_names, label_name)
save_path = data_path[:-4] + '_select.csv'
data[feature_names].to_csv(save_path, sep=',', index=False)

pass