目录
先运行之前的代码
# 先运行之前预处理好的代码
import pandas as pd
import pandas as pd #用于数据处理和分析,可处理表格数据。
import numpy as np #用于数值计算,提供了高效的数组操作。
import matplotlib.pyplot as plt #用于绘制各种类型的图表
import seaborn as sns #基于matplotlib的高级绘图库,能绘制更美观的统计图形。
import warnings
warnings.filterwarnings("ignore")
# 设置中文字体(解决中文显示问题)
plt.rcParams['font.sans-serif'] = ['SimHei'] # Windows系统常用黑体字体
plt.rcParams['axes.unicode_minus'] = False # 正常显示负号
data = pd.read_csv('data.csv') #读取数据
# 先筛选字符串变量
discrete_features = data.select_dtypes(include=['object']).columns.tolist()
# Home Ownership 标签编码
home_ownership_mapping = {
'Own Home': 1,
'Rent': 2,
'Have Mortgage': 3,
'Home Mortgage': 4
}
data['Home Ownership'] = data['Home Ownership'].map(home_ownership_mapping)
# Years in current job 标签编码
years_in_job_mapping = {
'< 1 year': 1,
'1 year': 2,
'2 years': 3,
'3 years': 4,
'4 years': 5,
'5 years': 6,
'6 years': 7,
'7 years': 8,
'8 years': 9,
'9 years': 10,
'10+ years': 11
}
data['Years in current job'] = data['Years in current job'].map(years_in_job_mapping)
# Purpose 独热编码,记得需要将bool类型转换为数值
data = pd.get_dummies(data, columns=['Purpose'])
data2 = pd.read_csv("data.csv") # 重新读取数据,用来做列名对比
list_final = [] # 新建一个空列表,用于存放独热编码后新增的特征名
for i in data.columns:
if i not in data2.columns:
list_final.append(i) # 这里打印出来的就是独热编码后的特征名
for i in list_final:
data[i] = data[i].astype(int) # 这里的i就是独热编码后的特征名
# Term 0 - 1 映射
term_mapping = {
'Short Term': 0,
'Long Term': 1
}
data['Term'] = data['Term'].map(term_mapping)
data.rename(columns={'Term': 'Long Term'}, inplace=True) # 重命名列
continuous_features = data.select_dtypes(include=['int64', 'float64']).columns.tolist() #把筛选出来的列名转换成列表
# 连续特征用中位数补全
for feature in continuous_features:
mode_value = data[feature].mode()[0] #获取该列的众数。
data[feature].fillna(mode_value, inplace=True) #用众数填充该列的缺失值,inplace=True表示直接在原数据上修改。
# 最开始也说了 很多调参函数自带交叉验证,甚至是必选的参数,你如果想要不交叉反而实现起来会麻烦很多
# 所以这里我们还是只划分一次数据集
from sklearn.model_selection import train_test_split
X = data.drop(['Credit Default'], axis=1) # 特征,axis=1表示按列删除
y = data['Credit Default'] # 标签
# # 按照8:2划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 80%训练集,20%测试集
from sklearn.ensemble import RandomForestClassifier #随机森林分类器
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score # 用于评估分类器性能的指标
from sklearn.metrics import classification_report, confusion_matrix #用于生成分类报告和混淆矩阵
import warnings #用于忽略警告信息
warnings.filterwarnings("ignore") # 忽略所有警告信息
# --- 1. 默认参数的随机森林 ---
# 评估基准模型,这里确实不需要验证集
print("--- 1. 默认参数随机森林 (训练集 -> 测试集) ---")
import time # 这里介绍一个新的库,time库,主要用于时间相关的操作,因为调参需要很长时间,记录下会帮助后人知道大概的时长
start_time = time.time() # 记录开始时间
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train) # 在训练集上训练
rf_pred = rf_model.predict(X_test) # 在测试集上预测
end_time = time.time() # 记录结束时间
print(f"训练与预测耗时: {end_time - start_time:.4f} 秒")
print("\n默认随机森林 在测试集上的分类报告:")
print(classification_report(y_test, rf_pred))
print("默认随机森林 在测试集上的混淆矩阵:")
print(confusion_matrix(y_test, rf_pred))
--- 1. 默认参数随机森林 (训练集 -> 测试集) --- 训练与预测耗时: 1.8811 秒 默认随机森林 在测试集上的分类报告: precision recall f1-score support 0 0.77 0.97 0.86 1059 1 0.79 0.30 0.43 441 accuracy 0.77 1500 macro avg 0.78 0.63 0.64 1500 weighted avg 0.77 0.77 0.73 1500 默认随机森林 在测试集上的混淆矩阵: [[1023 36] [ 309 132]]
一、特征降维
过去电脑性能比较差,特征数目太多计算起来很慢。同时特征中可能存在很多冗余特征干扰解释性、存在噪声特征干扰精度。
所以在面对高维特征的时候常常需要引入特征降维,我们之前课程中的项目的特征也就小几十个,不太需要做降维,对于某些特征较多的数据,如基因数据、微生物数据、传感器数据等,特征较多,所以会考虑特征降维。
特征降维一般有2种策略:
- 特征筛选:从n个特征中筛选出m个特征,比如方差筛选,剔除方差过小的特征;利用皮尔逊相关系数筛选;lasso筛选(lasso自带的系数可以理解为重要性)、利用树模型自带的重要性、shap重要性等筛选;特征递归方法
- 特征组合:从n个特征中组合出m个特征,如pca等
今天主要说一下特征筛选
二、特征筛选
1. 方差筛选
方差筛选是一种简单而有效的特征筛选方法。它的核心逻辑是:特征的方差反映了数据的变化程度,方差很小的特征几乎没有变化,对模型的预测帮助不大。比如,一个特征的值在所有样本中几乎都一样(方差接近0),那么它对区分不同类别或预测结果几乎没有贡献。因此,方差筛选会设定一个方差阈值,剔除方差低于这个阈值的特征,保留那些变化较大的特征,从而减少特征数量,提高模型效率。
这种方法特别适合处理高维数据,能快速去掉不重要的特征,但它不考虑特征与目标变量之间的关系,可能会误删一些低方差但有意义的特征。
# 打印标题,表明这是方差筛选的部分
print("--- 方差筛选 (Variance Threshold) ---")
# 导入需要的工具库
from sklearn.feature_selection import VarianceThreshold # 方差筛选工具,用于剔除方差小的特征
import time # 用于记录代码运行时间,方便比较效率
# 记录开始时间,后面会计算整个过程耗时
start_time = time.time()
# 创建方差筛选器,设置方差阈值为0.01
# 阈值是指方差的最小值,低于这个值的特征会被删除(可以根据数据情况调整阈值)
selector = VarianceThreshold(threshold=0.01)
# 对训练数据进行方差筛选,fit_transform会计算每个特征的方差并剔除不满足阈值的特征
# X_train是原始训练数据,X_train_var是筛选后的训练数据
X_train_var = selector.fit_transform(X_train)
# 对测试数据应用同样的筛选规则,transform会直接用训练数据的筛选结果处理测试数据
# X_test是原始测试数据,X_test_var是筛选后的测试数据
X_test_var = selector.transform(X_test)
# 获取被保留下来的特征名称
# selector.get_support()返回一个布尔值列表,表示哪些特征被保留,这个是selector这个实例化的类的一个方法
# X_train.columns是特征的名称,结合布尔值列表可以提取保留特征的名字
selected_features_var = X_train.columns[selector.get_support()].tolist()
# 打印筛选后保留的特征数量和具体特征名称,方便查看结果
print(f"方差筛选后保留的特征数量: {len(selected_features_var)}")
print(f"保留的特征: {selected_features_var}")
# 创建一个随机森林分类模型,用于在筛选后的数据上进行训练和预测
# random_state=42是为了保证每次运行结果一致,方便教学和对比
rf_model_var = RandomForestClassifier(random_state=42)
# 在筛选后的训练数据上训练模型
# X_train_var是筛选后的特征数据,y_train是对应的目标标签
rf_model_var.fit(X_train_var, y_train)
# 使用训练好的模型对筛选后的测试数据进行预测
# X_test_var是筛选后的测试特征数据,rf_pred_var是预测结果
rf_pred_var = rf_model_var.predict(X_test_var)
# 记录结束时间,计算整个训练和预测过程的耗时
end_time = time.time()
print(f"训练与预测耗时: {end_time - start_time:.4f} 秒")
# 打印模型在测试集上的分类报告,展示模型的性能
# 分类报告包括精确率、召回率、F1分数等指标,帮助评估模型好坏
print("\n方差筛选后随机森林在测试集上的分类报告:")
print(classification_report(y_test, rf_pred_var))
# 打印混淆矩阵,展示模型预测的详细结果
# 混淆矩阵显示了真实标签和预测标签的对应情况,比如多少样本被正确分类,多少被错分
print("方差筛选后随机森林在测试集上的混淆矩阵:")
print(confusion_matrix(y_test, rf_pred_var))
--- 方差筛选 (Variance Threshold) --- 方差筛选后保留的特征数量: 21 保留的特征: ['Id', 'Home Ownership', 'Annual Income', 'Years in current job', 'Tax Liens', 'Number of Open Accounts', 'Years of Credit History', 'Maximum Open Credit', 'Number of Credit Problems', 'Months since last delinquent', 'Bankruptcies', 'Long Term', 'Current Loan Amount', 'Current Credit Balance', 'Monthly Debt', 'Credit Score', 'Purpose_business loan', 'Purpose_buy a car', 'Purpose_debt consolidation', 'Purpose_home improvements', 'Purpose_other'] 训练与预测耗时: 2.0066 秒 方差筛选后随机森林在测试集上的分类报告: precision recall f1-score support 0 0.77 0.97 0.86 1059 1 0.80 0.29 0.42 441 accuracy 0.77 1500 macro avg 0.78 0.63 0.64 1500 weighted avg 0.78 0.77 0.73 1500 方差筛选后随机森林在测试集上的混淆矩阵: [[1028 31] [ 315 126]]
2. 皮尔逊相关系数筛选
皮尔逊相关系数筛选是一种基于特征与目标变量之间相关性的特征选择方法。它的核心逻辑是:计算每个特征与目标变量之间的相关系数(范围在-1到1之间,值越大表示正相关越强,值越小表示负相关越强,接近0表示几乎无关),然后根据相关系数的绝对值大小,选择与目标变量相关性较高的特征,剔除相关性较低的特征。这种方法适用于目标变量是连续型的情况(如果是分类问题,可以先对目标变量编码)。通过皮尔逊相关系数筛选,我们可以保留那些对预测目标最有帮助的特征,减少无关或冗余特征的干扰。
皮尔逊相关系数筛选法是一种基于变量相关性的经典特征选择技术,常用于处理目标变量为连续型的场景。若面对分类问题,通常需要先对目标变量进行编码处理,将其转化为数值型数据后再开展分析。
print("--- 皮尔逊相关系数筛选 ---")
from sklearn.feature_selection import SelectKBest, f_classif
import time
start_time = time.time()
# 计算特征与目标变量的相关性,选择前k个特征(这里设为10个,可调整)
# 注意:皮尔逊相关系数通常用于回归问题(连续型目标变量),但如果目标是分类问题,可以用f_classif
k = 10
selector = SelectKBest(score_func=f_classif, k=k)
X_train_corr = selector.fit_transform(X_train, y_train)
X_test_corr = selector.transform(X_test)
# 获取筛选后的特征名
selected_features_corr = X_train.columns[selector.get_support()].tolist()
print(f"皮尔逊相关系数筛选后保留的特征数量: {len(selected_features_corr)}")
print(f"保留的特征: {selected_features_corr}")
# 训练随机森林模型
rf_model_corr = RandomForestClassifier(random_state=42)
rf_model_corr.fit(X_train_corr, y_train)
rf_pred_corr = rf_model_corr.predict(X_test_corr)
end_time = time.time()
print(f"训练与预测耗时: {end_time - start_time:.4f} 秒")
print("\n皮尔逊相关系数筛选后随机森林在测试集上的分类报告:")
print(classification_report(y_test, rf_pred_corr))
print("皮尔逊相关系数筛选后随机森林在测试集上的混淆矩阵:")
print(confusion_matrix(y_test, rf_pred_corr))
--- 皮尔逊相关系数筛选 --- 皮尔逊相关系数筛选后保留的特征数量: 10 保留的特征: ['Id', 'Home Ownership', 'Annual Income', 'Tax Liens', 'Number of Open Accounts', 'Long Term', 'Current Loan Amount', 'Credit Score', 'Purpose_business loan', 'Purpose_small business'] 训练与预测耗时: 1.5516 秒 皮尔逊相关系数筛选后随机森林在测试集上的分类报告: precision recall f1-score support 0 0.77 0.94 0.84 1059 1 0.67 0.31 0.42 441 accuracy 0.75 1500 macro avg 0.72 0.62 0.63 1500 weighted avg 0.74 0.75 0.72 1500 皮尔逊相关系数筛选后随机森林在测试集上的混淆矩阵: [[991 68] [304 137]]
3. lasso筛选(基于L1正则化)
Lasso回归(Least Absolute Shrinkage and Selection Operator)是一种结合特征选择和模型训练的方法。它的核心逻辑是:在进行线性回归的同时,通过引入L1正则化项(即惩罚项),强制将一些不重要特征的回归系数压缩到0,从而实现特征筛选。换句话说,Lasso会自动“挑选”对预测目标有贡献的特征(系数不为0),而剔除无关或冗余的特征(系数为0)。这种方法特别适合处理高维数据,可以减少特征数量,提高模型的解释性和计算效率。
print("--- Lasso筛选 (L1正则化) ---")
from sklearn.linear_model import Lasso
from sklearn.feature_selection import SelectFromModel
import time
start_time = time.time()
# 使用Lasso回归进行特征筛选
lasso = Lasso(alpha=0.01, random_state=42) # alpha值可调整
selector = SelectFromModel(lasso)
selector.fit(X_train, y_train)
X_train_lasso = selector.transform(X_train)
X_test_lasso = selector.transform(X_test)
# 获取筛选后的特征名
selected_features_lasso = X_train.columns[selector.get_support()].tolist()
print(f"Lasso筛选后保留的特征数量: {len(selected_features_lasso)}")
print(f"保留的特征: {selected_features_lasso}")
# 训练随机森林模型
rf_model_lasso = RandomForestClassifier(random_state=42)
rf_model_lasso.fit(X_train_lasso, y_train)
rf_pred_lasso = rf_model_lasso.predict(X_test_lasso)
end_time = time.time()
print(f"训练与预测耗时: {end_time - start_time:.4f} 秒")
print("\nLasso筛选后随机森林在测试集上的分类报告:")
print(classification_report(y_test, rf_pred_lasso))
print("Lasso筛选后随机森林在测试集上的混淆矩阵:")
print(confusion_matrix(y_test, rf_pred_lasso))
--- Lasso筛选 (L1正则化) --- Lasso筛选后保留的特征数量: 7 保留的特征: ['Home Ownership', 'Years in current job', 'Number of Open Accounts', 'Years of Credit History', 'Months since last delinquent', 'Long Term', 'Credit Score'] 训练与预测耗时: 0.8391 秒 Lasso筛选后随机森林在测试集上的分类报告: precision recall f1-score support 0 0.77 0.94 0.85 1059 1 0.70 0.34 0.45 441 accuracy 0.76 1500 macro avg 0.74 0.64 0.65 1500 weighted avg 0.75 0.76 0.73 1500 Lasso筛选后随机森林在测试集上的混淆矩阵: [[995 64] [293 148]]
这个时候要注意,lasso本质上是回归模型,实际上用这个方法来筛选也是用回归模型对分类问题建模结束了,然后打印特征重要度,她是把0和1目标变量视为连续值来进行回归的。效果会差一点,不符合逻辑,但是确实可以计算
4. 树模型重要性筛选
print("--- 树模型自带的重要性筛选 ---")
from sklearn.feature_selection import SelectFromModel
import time
start_time = time.time()
# 使用随机森林的特征重要性进行筛选
rf_selector = RandomForestClassifier(random_state=42)
rf_selector.fit(X_train, y_train)
selector = SelectFromModel(rf_selector, threshold="mean") # 阈值设为平均重要性,可调整
X_train_rf = selector.transform(X_train)
X_test_rf = selector.transform(X_test)
# 获取筛选后的特征名
selected_features_rf = X_train.columns[selector.get_support()].tolist()
print(f"树模型重要性筛选后保留的特征数量: {len(selected_features_rf)}")
print(f"保留的特征: {selected_features_rf}")
# 训练随机森林模型
rf_model_rf = RandomForestClassifier(random_state=42)
rf_model_rf.fit(X_train_rf, y_train)
rf_pred_rf = rf_model_rf.predict(X_test_rf)
end_time = time.time()
print(f"训练与预测耗时: {end_time - start_time:.4f} 秒")
print("\n树模型重要性筛选后随机森林在测试集上的分类报告:")
print(classification_report(y_test, rf_pred_rf))
print("树模型重要性筛选后随机森林在测试集上的混淆矩阵:")
print(confusion_matrix(y_test, rf_pred_rf))
--- 树模型自带的重要性筛选 --- 树模型重要性筛选后保留的特征数量: 11 保留的特征: ['Id', 'Annual Income', 'Years in current job', 'Number of Open Accounts', 'Years of Credit History', 'Maximum Open Credit', 'Months since last delinquent', 'Current Loan Amount', 'Current Credit Balance', 'Monthly Debt', 'Credit Score'] 训练与预测耗时: 4.3868 秒 树模型重要性筛选后随机森林在测试集上的分类报告: precision recall f1-score support 0 0.76 0.97 0.85 1059 1 0.79 0.27 0.40 441 accuracy 0.76 1500 macro avg 0.78 0.62 0.63 1500 weighted avg 0.77 0.76 0.72 1500 树模型重要性筛选后随机森林在测试集上的混淆矩阵: [[1027 32] [ 321 120]]
5. SHAP重要性筛选
print("--- SHAP重要性筛选 ---")
import shap
from sklearn.feature_selection import SelectKBest
import time
start_time = time.time()
# 使用随机森林模型计算SHAP值
rf_shap = RandomForestClassifier(random_state=42)
rf_shap.fit(X_train, y_train)
explainer = shap.TreeExplainer(rf_shap)
shap_values = explainer.shap_values(X_train)
# 计算每个特征的平均SHAP值(取绝对值的平均)
mean_shap = np.abs(shap_values[1]).mean(axis=0) # shap_values[1]对应正类
k = 10 # 选择前10个特征,可调整
top_k_indices = np.argsort(mean_shap)[-k:]
X_train_shap = X_train.iloc[:, top_k_indices]
X_test_shap = X_test.iloc[:, top_k_indices]
# 获取筛选后的特征名
selected_features_shap = X_train.columns[top_k_indices].tolist()
print(f"SHAP重要性筛选后保留的特征数量: {len(selected_features_shap)}")
print(f"保留的特征: {selected_features_shap}")
# 训练随机森林模型
rf_model_shap = RandomForestClassifier(random_state=42)
rf_model_shap.fit(X_train_shap, y_train)
rf_pred_shap = rf_model_shap.predict(X_test_shap)
end_time = time.time()
print(f"训练与预测耗时: {end_time - start_time:.4f} 秒")
print("\nSHAP重要性筛选后随机森林在测试集上的分类报告:")
print(classification_report(y_test, rf_pred_shap))
print("SHAP重要性筛选后随机森林在测试集上的混淆矩阵:")
print(confusion_matrix(y_test, rf_pred_shap))
--- SHAP重要性筛选 --- SHAP重要性筛选后保留的特征数量: 10 保留的特征: ['Id', 'Number of Open Accounts', 'Current Credit Balance', 'Years of Credit History', 'Monthly Debt', 'Maximum Open Credit', 'Long Term', 'Annual Income', 'Current Loan Amount', 'Credit Score'] 训练与预测耗时: 321.1299 秒 SHAP重要性筛选后随机森林在测试集上的分类报告: precision recall f1-score support 0 0.77 0.95 0.85 1059 1 0.74 0.31 0.44 441 accuracy 0.76 1500 macro avg 0.75 0.63 0.64 1500 weighted avg 0.76 0.76 0.73 1500 SHAP重要性筛选后随机森林在测试集上的混淆矩阵: [[1010 49] [ 304 137]]
6. 递归特征消除RFE
递归特征消除(Recursive Feature Elimination, 简称RFE)是一种特征选择方法,广泛用于机器学习中,特别是在分类和回归问题中,用于从一组特征中筛选出对模型性能贡献最大的子集。RFE的核心思想是通过递归地移除最不重要的特征,逐步缩小特征集,直到达到预设的特征数量或满足其他停止条件。
print("--- 递归特征消除 (RFE) ---")
from sklearn.feature_selection import RFE
import time
start_time = time.time()
# 使用随机森林作为基础模型进行RFE
base_model = RandomForestClassifier(random_state=42)
rfe = RFE(base_model, n_features_to_select=10) # 选择10个特征,可调整
rfe.fit(X_train, y_train)
X_train_rfe = rfe.transform(X_train)
X_test_rfe = rfe.transform(X_test)
# 获取筛选后的特征名
selected_features_rfe = X_train.columns[rfe.support_].tolist()
print(f"RFE筛选后保留的特征数量: {len(selected_features_rfe)}")
print(f"保留的特征: {selected_features_rfe}")
# 训练随机森林模型
rf_model_rfe = RandomForestClassifier(random_state=42)
rf_model_rfe.fit(X_train_rfe, y_train)
rf_pred_rfe = rf_model_rfe.predict(X_test_rfe)
end_time = time.time()
print(f"训练与预测耗时: {end_time - start_time:.4f} 秒")
print("\nRFE筛选后随机森林在测试集上的分类报告:")
print(classification_report(y_test, rf_pred_rfe))
print("RFE筛选后随机森林在测试集上的混淆矩阵:")
print(confusion_matrix(y_test, rf_pred_rfe))
--- 递归特征消除 (RFE) --- RFE筛选后保留的特征数量: 10 保留的特征: ['Id', 'Annual Income', 'Number of Open Accounts', 'Years of Credit History', 'Maximum Open Credit', 'Months since last delinquent', 'Current Loan Amount', 'Current Credit Balance', 'Monthly Debt', 'Credit Score'] 训练与预测耗时: 48.9730 秒 RFE筛选后随机森林在测试集上的分类报告: precision recall f1-score support 0 0.76 0.97 0.85 1059 1 0.80 0.27 0.40 441 accuracy 0.76 1500 macro avg 0.78 0.62 0.63 1500 weighted avg 0.77 0.76 0.72 1500 RFE筛选后随机森林在测试集上的混淆矩阵: [[1030 29] [ 324 117]]
上面这些方法的计算耗时没意义,目的是筛选出最后用的特征,可以看到只保留这几个特征效果仍然很好。说明可以在未来的建模中减少计算资源
三、作业
对心脏病数据集完成特征筛选,并对比精度。
1. 特征筛选
# 导入必要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import time
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.feature_selection import VarianceThreshold, SelectKBest, RFE
from sklearn.linear_model import LogisticRegression, LassoCV
from sklearn.preprocessing import StandardScaler
import shap
# 设置中文显示和忽略警告
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
warnings.filterwarnings("ignore")
# 数据加载与预处理
data = pd.read_csv('heart.csv')
# 处理分类变量 (示例数据假设已编码)
# 如果有需要可取消注释以下代码:
# categorical_cols = ['cp', 'restecg', 'slope', 'thal']
# data = pd.get_dummies(data, columns=categorical_cols)
# 划分数据集
X = data.drop('target', axis=1)
y = data['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 定义评估函数
def evaluate_model(method_name, X_train_sel, X_test_sel):
start_time = time.time()
model = RandomForestClassifier(random_state=42)
model.fit(X_train_sel, y_train)
pred = model.predict(X_test_sel)
end_time = time.time()
print(f"\n{method_name}后随机森林在测试集上的分类报告:")
print(classification_report(y_test, pred))
print(f"{method_name}后随机森林在测试集上的混淆矩阵:")
print(confusion_matrix(y_test, pred))
print(f"训练与预测耗时: {end_time - start_time:.4f} 秒")
return model
1.1 方差筛选
# 1. 方差筛选
print("\n--- 方差筛选 (Variance Threshold) ---")
selector_var = VarianceThreshold(threshold=0.01)
X_train_var = selector_var.fit_transform(X_train)
X_test_var = selector_var.transform(X_test)
selected_features_var = X_train.columns[selector_var.get_support()].tolist()
print(f"保留特征数: {len(selected_features_var)}")
print(f"特征列表: {selected_features_var}")
_ = evaluate_model("方差筛选", X_train_var, X_test_var)
输出结果:
--- 方差筛选 (Variance Threshold) ---
保留特征数: 13
特征列表: ['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal']
方差筛选后随机森林在测试集上的分类报告:
precision recall f1-score support
0 0.83 0.83 0.83 29
1 0.84 0.84 0.84 32
accuracy 0.84 61
macro avg 0.84 0.84 0.84 61
weighted avg 0.84 0.84 0.84 61
方差筛选后随机森林在测试集上的混淆矩阵:
[[24 5]
[ 5 27]]
训练与预测耗时: 0.1483 秒
1.2 皮尔逊相关系数筛选
# 2. 皮尔逊相关系数筛选
print("\n--- 皮尔逊相关系数筛选 ---")
k = 8 # 选择前8个特征
selector_corr = SelectKBest(k=k)
X_train_corr = selector_corr.fit_transform(X_train, y_train)
X_test_corr = selector_corr.transform(X_test)
selected_features_corr = X_train.columns[selector_corr.get_support()].tolist()
print(f"保留特征数: {k}")
print(f"特征列表: {selected_features_corr}")
_ = evaluate_model("皮尔逊相关系数", X_train_corr, X_test_corr)
输出结果:
--- 皮尔逊相关系数筛选 ---
保留特征数: 8
特征列表: ['sex', 'cp', 'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal']
皮尔逊相关系数后随机森林在测试集上的分类报告:
precision recall f1-score support
0 0.85 0.79 0.82 29
1 0.82 0.88 0.85 32
accuracy 0.84 61
macro avg 0.84 0.83 0.83 61
weighted avg 0.84 0.84 0.84 61
皮尔逊相关系数后随机森林在测试集上的混淆矩阵:
[[23 6]
[ 4 28]]
训练与预测耗时: 0.1587 秒
1.3 Lasso筛选
# 3. Lasso筛选
print("\n--- Lasso筛选 (L1正则化) ---")
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
lasso = LassoCV(cv=5, random_state=42)
lasso.fit(X_train_scaled, y_train)
selected_features_lasso = X_train.columns[lasso.coef_ != 0].tolist()
print(f"保留特征数: {len(selected_features_lasso)}")
print(f"特征列表: {selected_features_lasso}")
_ = evaluate_model("Lasso", X_train_scaled[:, lasso.coef_ != 0], X_test_scaled[:, lasso.coef_ != 0])
输出结果:
--- Lasso筛选 (L1正则化) ---
保留特征数: 12
特征列表: ['age', 'sex', 'cp', 'trestbps', 'chol', 'restecg', 'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal']
Lasso后随机森林在测试集上的分类报告:
precision recall f1-score support
0 0.83 0.83 0.83 29
1 0.84 0.84 0.84 32
accuracy 0.84 61
macro avg 0.84 0.84 0.84 61
weighted avg 0.84 0.84 0.84 61
Lasso后随机森林在测试集上的混淆矩阵:
[[24 5]
[ 5 27]]
训练与预测耗时: 0.1561 秒
1.4 树模型重要性筛选
# 4. 树模型重要性筛选
print("\n--- 树模型重要性筛选 ---")
from sklearn.feature_selection import SelectFromModel # 添加缺失的导入
# 训练基础随机森林模型
rf_base = RandomForestClassifier(random_state=42)
rf_base.fit(X_train, y_train)
# 获取特征重要性并设置阈值
importances = rf_base.feature_importances_
threshold = np.median(importances) # 取中位数作为阈值
# 创建特征选择器
selector_tree = SelectFromModel(
estimator=rf_base,
threshold=threshold,
prefit=True # 使用已训练好的模型
)
# 应用特征选择
X_train_tree = selector_tree.transform(X_train)
X_test_tree = selector_tree.transform(X_test)
# 获取选中的特征名称
selected_features_tree = X_train.columns[selector_tree.get_support()].tolist()
print(f"保留特征数: {len(selected_features_tree)}")
print(f"特征列表: {selected_features_tree}")
_ = evaluate_model("树模型重要性", X_train_tree, X_test_tree)
输出结果:
--- 树模型重要性筛选 ---
保留特征数: 7
特征列表: ['age', 'cp', 'trestbps', 'thalach', 'oldpeak', 'ca', 'thal']
树模型重要性后随机森林在测试集上的分类报告:
precision recall f1-score support
0 0.85 0.79 0.82 29
1 0.82 0.88 0.85 32
accuracy 0.84 61
macro avg 0.84 0.83 0.83 61
weighted avg 0.84 0.84 0.84 61
树模型重要性后随机森林在测试集上的混淆矩阵:
[[23 6]
[ 4 28]]
训练与预测耗时: 0.1352 秒
1.5 SHAP重要性筛选
# 5. SHAP重要性筛选
print("\n--- SHAP重要性筛选 ---")
explainer = shap.TreeExplainer(rf_base)
shap_values = explainer.shap_values(X_train)
shap_importances = np.abs(shap_values).mean(axis=0)[0] # 针对二分类问题
top_k = 7 # 选择前7个特征
selected_indices = np.argsort(shap_importances)[-top_k:]
selected_features_shap = X_train.columns[selected_indices].tolist()
print(f"保留特征数: {top_k}")
print(f"特征列表: {selected_features_shap}")
_ = evaluate_model("SHAP重要性", X_train[selected_features_shap], X_test[selected_features_shap])
输出结果:
--- SHAP重要性筛选 ---
保留特征数: 7
特征列表: ['slope', 'exang', 'cp', 'age', 'oldpeak', 'thal', 'ca']
SHAP重要性后随机森林在测试集上的分类报告:
precision recall f1-score support
0 0.83 0.83 0.83 29
1 0.84 0.84 0.84 32
accuracy 0.84 61
macro avg 0.84 0.84 0.84 61
weighted avg 0.84 0.84 0.84 61
SHAP重要性后随机森林在测试集上的混淆矩阵:
[[24 5]
[ 5 27]]
训练与预测耗时: 0.1342 秒
1.6 递归特征消除 (RFE)
# 6. 递归特征消除 (RFE)
print("\n--- 递归特征消除 (RFE) ---")
from sklearn.feature_selection import RFE
# 初始化RFE(显式设置n_features_to_select)
rfe = RFE(
estimator=LogisticRegression(max_iter=1000, random_state=42),
n_features_to_select=6, # 明确设置要选择的特征数量
step=1
)
rfe.fit(X_train, y_train)
# 获取结果
X_train_rfe = rfe.transform(X_train)
X_test_rfe = rfe.transform(X_test)
selected_features_rfe = X_train.columns[rfe.support_].tolist()
# 修正打印语句(使用实际选择的特征数)
print(f"保留特征数: {rfe.n_features_}") # 正确属性为n_features_
print(f"特征列表: {selected_features_rfe}")
_ = evaluate_model("RFE", X_train_rfe, X_test_rfe)
输出结果:
--- 递归特征消除 (RFE) ---
保留特征数: 6
特征列表: ['sex', 'cp', 'exang', 'oldpeak', 'ca', 'thal']
RFE后随机森林在测试集上的分类报告:
precision recall f1-score support
0 0.77 0.83 0.80 29
1 0.83 0.78 0.81 32
accuracy 0.80 61
macro avg 0.80 0.80 0.80 61
weighted avg 0.81 0.80 0.80 61
RFE后随机森林在测试集上的混淆矩阵:
[[24 5]
[ 7 25]]
训练与预测耗时: 0.1198 秒
2. 方法对比
筛选方法 | 准确率 | 耗时(秒) | 保留特征数 |
---|---|---|---|
方差筛选 | 0.84 | 0.15 | 13 |
皮尔逊相关系数 | 0.84 | 0.16 | 8 |
Lasso | 0.84 | 0.16 | 12 |
树模型重要性 | 0.84 | 0.14 | 7 |
SHAP重要性 | 0.84 | 0.13 | 7 |
RFE | 0.80 | 0.12 | 6 |
方法 | 优势 | 潜在问题 |
---|---|---|
方差筛选 | 保留特征全面(13个) | 可能包含冗余特征 |
皮尔逊相关系数 | 线性关系捕捉有效 | 忽略非线性关系 |
Lasso | 自动特征压缩(保留12个) | 正则化强度可能不足 |
树模型/SHAP | 非线性关系建模最佳(7特征) | SHAP计算成本通常较高 |
RFE | 最快速度(0.12秒) | 特征过度压缩导致信息丢失 |