递归特征消除 (Recursive Feature Elimination, RFE) 是一种特征选择技术,旨在通过反复训练模型、评估每个特征的重要性并逐步移除不重要的特征,来选择出对模型预测最有价值的特征集。结合随机森林回归模型,这种方法在处理高维数据和非线性关系时非常有效。本文将详细探讨这两者结合的数学原理。
2. 递归特征消除 (RFE) 的数学原理
递归特征消除的目标是通过反复评估特征重要性来逐步移除不重要的特征,最终保留最具影响力的特征。这个过程依赖于模型的重要性评估方法,比如上面介绍的随机森林特征重要性。
2.1 递归特征消除步骤
-
训练模型:首先使用所有的特征训练一个机器学习模型(这里是随机森林回归)。
-
计算特征重要性:对于当前模型,计算所有特征的特征重要性 IjI_jIj。
-
移除最不重要的特征:选择最不重要的特征(即特征重要性 IjI_jIj 最低的特征),并将其移除。
-
重复步骤 1-3:不断重复这一过程,直到剩下的特征数量达到预定值或满足某个终止条件。
4. 实现步骤回顾
- 初始模型训练:首先使用所有特征训练随机森林模型,并通过交叉验证计算模型的性能。
- 特征重要性评估:通过随机森林的特征重要性指标,评估每个特征对模型预测结果的贡献。
- 移除不重要特征:移除贡献最小的特征,更新特征子集。
- 重复消除步骤:重复训练-评估-消除的过程,直到剩余的特征数满足预定条件。
- 选择最优特征集:选择使得 RMSE 最小的特征子集作为最终的特征选择结果。
5. 优点与局限性
优点:
- 鲁棒性:随机森林回归模型在应对非线性特征和高维数据时表现出色。
- 解释性:特征重要性可以提供每个特征对模型预测影响的定量评价。
局限性:
- 计算成本较高:RFE 需要反复训练模型,每次消除一个或多个特征,因此计算复杂度较高,尤其是在特征数较多时。
- 不适用于稀疏数据:如果数据的维度远大于样本量,RFE 的表现可能不如 L1 正则化等其他方法。
结论
递归特征消除结合随机森林回归是一个强大的特征选择工具,能够有效识别出对模型预测最有价值的特征。通过不断地移除贡献最小的特征,并利用交叉验证评估每次移除后的模型性能,我们可以确保最终选择的特征子集是最优的,从而提高模型的预测准确性并减少过拟合的风险。
参考文献
- Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5-32.
- Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of machine learning research, 3(Mar), 1157-1182.
% 清空工作区、关闭所有图形窗口、清空命令行 clear; close all; clc; % 加载数据 (假设最后一列是股票收盘价,前面的列是特征) df = readtable('data.xlsx'); % 使用最后一列作为收盘价,前面的列作为特征 X = df(:, 1:end-1); % 特征 y = df{:, end}; % 使用最后一列作为目标变量(收盘价) % 划分训练集和测试集 (80% 训练集, 20% 测试集) cv = cvpartition(size(X, 1), 'HoldOut', 0.2); % 不进行分层,因为是回归问题 X_train = X(training(cv), :); y_train = y(training(cv)); X_test = X(test(cv), :); y_test = y(test(cv)); % 初始化随机森林回归模型 template = templateTree('MaxNumSplits', 20); % 创建一个决策树模板 numLearningCycles = 100; % 决策树的数量 % 递归特征消除 (RFE) numFeatures = size(X_train, 2); selectedFeatures = true(1, numFeatures); % 初始化所有特征被选中 kFold = 5; % 5 折交叉验证 cvp = cvpartition(y_train, 'KFold', kFold); % K 折交叉验证 % 用于存储每一折的交叉验证结果 fold_scores = zeros(kFold, numFeatures); optimalRMSE = inf(numFeatures, 1); % 初始化 RMSE 为无穷大 for i = 1:numFeatures % 使用交叉验证训练模型 if any(selectedFeatures) % 确保特征集不为空 model = fitrensemble(X_train(:, selectedFeatures), y_train, 'Method', 'Bag', ... 'Learners', template, 'NumLearningCycles', numLearningCycles); cvModel = crossval(model, 'CVPartition', cvp); % 计算交叉验证的 RMSE(均方根误差) fold_rmse = kfoldLoss(cvModel, 'LossFun', 'mse', 'Mode', 'individual') .^ 0.5; fold_scores(:, i) = fold_rmse; % 计算平均 RMSE avgRMSE = mean(fold_rmse); optimalRMSE(i) = avgRMSE; % 存储每个特征数的 RMSE % 进行特征选择,移除贡献最小的特征 if i < numFeatures featureImportance = predictorImportance(model); [~, leastImportantIdx] = min(featureImportance); selectedFeatures(leastImportantIdx) = false; end end end % 找到最佳特征数(RMSE 最小的索引) [~, optimalIndex] = min(optimalRMSE); optimalNumFeatures = sum(selectedFeatures); % 计算选中的特征数 fprintf('最佳特征数: %d\n', optimalNumFeatures); % 输出最佳特征及其索引 selectedFeatureIndices = find(selectedFeatures); if ~isempty(selectedFeatureIndices) disp('选择的特征及其索引:'); for j = 1:length(selectedFeatureIndices) fprintf('特征 %d: %s\n', selectedFeatureIndices(j), X_train.Properties.VariableNames{selectedFeatureIndices(j)}); end else disp('没有选择的特征。'); end % 可视化:递归特征消除 (RFE) 与交叉验证的得分 figure('Position', [100 100 1200 800], 'Color', 'w'); title('Recursive Feature Elimination with Cross-Validation (RFCV)', ... 'FontSize', 16, 'FontWeight', 'bold', 'Interpreter', 'none'); xlabel('Number of features selected', 'FontSize', 14); ylabel('Cross-validation score (RMSE)', 'FontSize', 14); % 设置背景颜色 ax = gca; ax.Color = [0.97 0.97 0.97]; % 设置背景颜色为灰白 hold on; % 绘制每一折交叉验证结果 for i = 1:kFold plot(1:numFeatures, fold_scores(i, :), 'o-', 'Color', [0.5 0.5 0.5], ... 'LineWidth', 0.8, 'MarkerSize', 5, 'MarkerFaceColor', [0.5 0.5 0.5]); end % 绘制平均交叉验证得分 plot(1:numFeatures, optimalRMSE, 'o-', 'Color', '#696969', 'LineWidth', 3, ... 'DisplayName', 'Mean CV RMSE'); % 绘制最佳特征数的垂直线 xline(optimalIndex, '--', 'Color', '#E76F51', ... 'LineWidth', 2, 'Label', sprintf('Optimal = %d', optimalNumFeatures)); legend('Location', 'Best'); grid on; xlabel('Number of features selected'); ylabel('Cross-validation score (RMSE)'); set(gca, 'FontSize', 12); hold off; % 保存可视化结果 saveas(gcf, 'RFE_CrossValidation.png');
最佳特征数: 3
选择的特征及其索引:
特征 4: F4
特征 5: F5
特征 6: F6