randomforestregressor python_使用python+sklearn实现stacking方法来组合预测

Stacking是指一种混合估计器的方法,在这种策略中,一些估计器分别在一些训练数据上进行拟合(fit),而最终估计器则使用这些基本估计器的堆叠预测结果来进行训练。

在本示例中,我们将不同的回归器堆叠在一起,并使用最终的线性惩罚回归器(inear penalized regressor)来预测输出。我们将每个回归器的性能与堆叠策略进行比较,结果显示Stacking会稍微改善整体性能。

print(__doc__)# 作者: Guillaume Lemaitre # 许可证: BSD 3 clause

plot_regression_results函数用于绘制预测目标和真实目标。

import matplotlib.pyplot as pltdef plot_regression_results(ax, y_true, y_pred, title, scores, elapsed_time):"""预测目标与真实目标的散点图。"""
    ax.plot([y_true.min(), y_true.max()],
            [y_true.min(), y_true.max()],'--r', linewidth=2)
    ax.scatter(y_true, y_pred, alpha=0.2)
    ax.spines['top'].set_visible(False)
    ax.spines['right'].set_visible(False)
    ax.get_xaxis().tick_bottom()
    ax.get_yaxis().tick_left()
    ax.spines['left'].set_position(('outward', 10))
    ax.spines['bottom'].set_position(('outward', 10))
    ax.set_xlim([y_true.min(), y_true.max()])
    ax.set_ylim([y_true.min(), y_true.max()])
    ax.set_xlabel('Measured')
    ax.set_ylabel('Predicted')
    extra = plt.Rectangle((0, 0), 0, 0, fc="w", fill=False,
                          edgecolor='none', linewidth=0)
    ax.legend([extra], [scores], loc='upper left')
    title = title + '\n Evaluation in {:.2f} seconds'.format(elapsed_time)
    ax.set_title(title)

单个数据集上预测器的堆叠

在给定数据集上找到最适合模型有时会很繁琐,Stacking通过组合多个学习器的输出提供了一种替代方法,而无需专门选择模型。堆叠的性能通常接近最佳模型,有时它的性能可能会超出每个模型的预测性能。

在这里,我们组合了3个学习器(线性和非线性),并使用岭回归器将其输出组合在一起。

from sklearn.ensemble import StackingRegressorfrom sklearn.ensemble import RandomForestRegressorfrom sklearn.experimental import enable_hist_gradient_boosting  # noqafrom sklearn.ensemble import HistGradientBoostingRegressorfrom sklearn.linear_model import LassoCVfrom sklearn.linear_model import RidgeCV
estimators = [
    ('Random Forest', RandomForestRegressor(random_state=42)),
    ('Lasso', LassoCV()),
    ('Gradient Boosting', HistGradientBoostingRegressor(random_state=0))
]
stacking_regressor = StackingRegressor(
    estimators=estimators, final_estimator=RidgeCV()
)

我们使用了波士顿数据集(房价预测)。我们检查每个预测器以及回归器Stacking后的性能。

import timeimport numpy as npfrom sklearn.datasets import load_bostonfrom sklearn.model_selection import cross_validate, cross_val_predict
X, y = load_boston(return_X_y=True)
fig, axs = plt.subplots(2, 2, figsize=(9, 7))
axs = np.ravel(axs)for ax, (name, est) in zip(axs, estimators + [('Stacking Regressor',
                                               stacking_regressor)]):
    start_time = time.time()
    score = cross_validate(est, X, y,
                           scoring=['r2', 'neg_mean_absolute_error'],
                           n_jobs=-1, verbose=0)
    elapsed_time = time.time() - start_time
    y_pred = cross_val_predict(est, X, y, n_jobs=-1, verbose=0)
    plot_regression_results(
        ax, y, y_pred,
        name,
        (r'$R^2={:.2f} \pm {:.2f}$' + '\n' + r'$MAE={:.2f} \pm {:.2f}$')
        .format(np.mean(score['test_r2']),
                np.std(score['test_r2']),
                -np.mean(score['test_neg_mean_absolute_error']),
                np.std(score['test_neg_mean_absolute_error'])),
        elapsed_time)
plt.suptitle('Single predictors versus stacked predictors')
plt.tight_layout()
plt.subplots_adjust(top=0.9)
plt.show()

4bcfb920091df03246643f1832e0af95.png sphx_glr_plot_stack_predictors_001 Stacking回归器会结合不同回归器的优势,但是训练Stacking回归器在计算成本上要昂贵得多。 脚本的总运行时间:(0分钟11.613秒) 估计的内存使用量:10 MB 8bebc2169c54688e7056ccadf43ff4e7.png

下载python源代码:plot_ica_vs_pca.py

下载Jupyter notebook源代码:plot_ica_vs_pca.ipynb

由Sphinx-Gallery生成的画廊

6d5dde9144f6baad67d29a9d94b1403b.png ☆☆☆为方便大家查阅,小编已将scikit-learn学习路线专栏文章统一整理到公众号底部菜单栏,同步更新中,关注公众号,点击左下方“系列文章”,如图: c2cdab46d65cbde499f5ed3835dbab2e.png 欢迎大家和我一起沿着scikit-learn文档这条路线,一起巩固机器学习算法基础。(添加微信:mthler,备注:sklearn学习,一起进【sklearn机器学习进步群】开启打怪升级的学习之旅。)941fbd38127a9778f25ab59fea7e6ae0.png
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Stacking是一种用于模型融合的技术,可以通过将多个模型的预测结果作为特征来训练另一个模型,从而提升整体的预测性能。以下是一个利用Python实现Stacking的实例。 首先,我们需要导入相关的库和数据集。在这个例子中,我们使用波士顿房价数据集。代码如下: ```python import pandas as pd import numpy as np from sklearn.datasets import load_boston from sklearn.model_selection import KFold from sklearn.linear_model import LinearRegression from sklearn.tree import DecisionTreeRegressor from sklearn.ensemble import RandomForestRegressor boston = load_boston() X = pd.DataFrame(boston.data, columns=boston.feature_names) y = boston.target ``` 接下来,我们定义三个不同的模型:线性回归、决策树回归和随机森林回归。然后,我们使用KFold对数据进行交叉验证,并在每个fold上训练三个模型并记录其预测结果。代码如下: ```python n_splits = 5 kf = KFold(n_splits=n_splits) lr_oof = np.zeros((X.shape[0],)) dt_oof = np.zeros((X.shape[0],)) rf_oof = np.zeros((X.shape[0],)) for train_idx, test_idx in kf.split(X): X_train, y_train = X.iloc[train_idx], y[train_idx] X_test, y_test = X.iloc[test_idx], y[test_idx] # Linear Regression lr = LinearRegression() lr.fit(X_train, y_train) lr_oof[test_idx] = lr.predict(X_test) # Decision Tree Regression dt = DecisionTreeRegressor(random_state=42) dt.fit(X_train, y_train) dt_oof[test_idx] = dt.predict(X_test) # Random Forest Regression rf = RandomForestRegressor(random_state=42) rf.fit(X_train, y_train) rf_oof[test_idx] = rf.predict(X_test) ``` 现在我们有了三个模型的预测结果,我们将这些预测结果作为新的特征,并使用一个线性回归模型对其进行训练。代码如下: ```python X_new = pd.DataFrame({"lr_oof": lr_oof, "dt_oof": dt_oof, "rf_oof": rf_oof}) stacker = LinearRegression() stacker.fit(X_new, y) ``` 最后,我们可以使用stacker模型来进行预测代码如下: ```python y_pred = stacker.predict(X_new) ``` 这就是用Python实现Stacking模型融合的基本过程。当然,这只是一个简单的示例,实际中可能需要对模型进行更复杂的调整和优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值