深入理解mlxtend中的StackingCVRegressor：回归模型的交叉验证堆叠技术-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00537/article/details/148508033

深入理解mlxtend中的StackingCVRegressor：回归模型的交叉验证堆叠技术

mlxtend rasbt/mlxtend: 是一个用于 Python 数据科学与机器学习的库，提供了许多实用的工具和函数，以简化和加速数据科学的工作流程。适合对 Python 数据科学与机器学习有兴趣的人，特别是想快速实现一些常用机器学习算法和数据处理功能的人。项目地址: https://gitcode.com/gh_mirrors/ml/mlxtend

什么是StackingCVRegressor？

StackingCVRegressor是mlxtend库中提供的一种集成学习元回归器，它通过交叉验证的方式将多个基础回归模型的预测结果组合起来，形成一个更强大的回归模型。与标准的堆叠回归不同，StackingCVRegressor使用折外预测(out-of-fold predictions)来准备第二层回归器的输入数据，这种方法能有效减少过拟合风险。

工作原理

StackingCVRegressor的工作流程可以分为以下几个关键步骤：

数据划分：将训练数据集分成k个折叠
基础模型训练：在k轮迭代中，每轮使用k-1个折叠训练基础回归模型
折外预测：使用训练好的基础模型对剩下的1个折叠进行预测
元特征构建：将所有折外预测结果堆叠起来，形成新的特征矩阵
元模型训练：使用这个新特征矩阵训练第二层回归器(元回归器)
最终模型拟合：在整个训练集上重新拟合所有基础模型

这种交叉验证的方式确保了元回归器的训练数据不会与基础模型的训练数据重叠，从而提高了模型的泛化能力。

核心优势

降低过拟合风险：通过折外预测避免了信息泄露
模型组合效果更优：通常能超越单个最佳基础模型的性能
灵活性强：可以与各种回归模型组合使用
支持超参数调优：可以与GridSearchCV等调优工具配合使用

实际应用示例

示例1：波士顿房价预测

我们首先比较几种基础回归模型与StackingCVRegressor在波士顿房价数据集上的表现：

from mlxtend.regressor import StackingCVRegressor
from sklearn.datasets import load_boston
from sklearn.svm import SVR
from sklearn.linear_model import Lasso
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score
import numpy as np

# 加载数据
X, y = load_boston(return_X_y=True)

# 初始化基础模型
svr = SVR(kernel='linear')
lasso = Lasso()
rf = RandomForestRegressor(n_estimators=5, random_state=42)

# 创建StackingCVRegressor
stack = StackingCVRegressor(regressors=(svr, lasso, rf),
                           meta_regressor=lasso,
                           random_state=42)

# 评估模型性能
print('5折交叉验证R^2分数:\n')
for clf, label in zip([svr, lasso, rf, stack], 
                     ['SVM', 'Lasso', '随机森林', 'StackingCVRegressor']):
    scores = cross_val_score(clf, X, y, cv=5)
    print("R^2分数: %0.2f (+/- %0.2f) [%s]" % (scores.mean(), scores.std(), label))

输出结果显示，StackingCVRegressor通常能取得比单个模型更好的性能表现。

示例2：结合网格搜索调优

StackingCVRegressor可以与GridSearchCV配合使用，对基础模型和元模型的超参数进行联合调优：

from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import Ridge

# 初始化模型
ridge = Ridge()
lasso = Lasso()
rf = RandomForestRegressor()

# 创建StackingCVRegressor
stack = StackingCVRegressor(regressors=(lasso, ridge),
                           meta_regressor=rf,
                           random_state=42)

# 设置参数网格
params = {
    'lasso__alpha': [x/5.0 for x in range(1, 10)],
    'ridge__alpha': [x/20.0 for x in range(1, 10)],
    'meta_regressor__n_estimators': [10, 100]
}

# 网格搜索
grid = GridSearchCV(estimator=stack, param_grid=params, cv=5, refit=True)
grid.fit(X, y)

print("最佳参数组合: %s" % grid.best_params_)
print("最佳分数: %.2f" % grid.best_score_)