scikit-learn : GBR (Gradient boosting regression)

最新推荐文章于 2025-03-19 10:22:45 发布

搬砖小工053

最新推荐文章于 2025-03-19 10:22:45 发布

阅读量3.5w

点赞数 11

分类专栏：回归分析文章标签：回归分析 sklearn python

本文链接：https://blog.csdn.net/SA14023053/article/details/51817650

版权

回归分析专栏收录该内容

10 篇文章

订阅专栏

本文介绍了梯度提升回归（GBR）的基本原理及其在回归任务中的应用。通过模拟数据对比了GBR与线性回归的效果，并展示了如何通过调整参数来优化GBR模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

梯度提升回归（Gradient boosting regression，GBR）是一种从它的错误中进行学习的技术。它本质上就是集思广益，集成一堆较差的学习算法进行学习。有两点需要注意：
- 每个学习算法准备率都不高，但是它们集成起来可以获得很好的准确率。
- 这些学习算法依次应用，也就是说每个学习算法都是在前一个学习算法的错误中学习

准备模拟数据

我们还是用基本的回归数据来演示GBR：

import numpy as np
from sklearn.datasets import make_regression
X, y = make_regression(1000, 2, noise=10)

GBR原理

GBR算是一种集成模型因为它是一个集成学习算法。这种称谓的含义是指GBR用许多较差的学习算法组成了一个更强大的学习算法：

from sklearn.ensemble import GradientBoostingRegressor as GBR
gbr = GBR()
gbr.fit(X, y)
gbr_preds = gbr.predict(X)

很明显，这里应该不止一个模型，但是这种模式现在很简明。现在，让我们用基本回归算法来拟合数据当作参照：

from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(X, y)
lr_preds = lr.predict(X)

有了参照之后，让我们看看GBR算法与线性回归算法效果的对比情况。图像生成可以参照第一章正态随机过程的相关主题，首先需要下面的计算：

gbr_residuals = y - gbr_preds
lr_residuals = y - lr_preds

%matplotlib inline
from matplotlib import pyplot as plt

f, ax = plt.subplots(figsize=(7, 5))
f.tight_layout()
ax.hist(gbr_residuals,bins=20,label='GBR Residuals', color='b', alpha=.5);
ax.hist(lr_residuals,bins=20,label='LR Residuals', color='r', alpha=.5);
ax.set_title("GBR Residuals vs LR Residuals")
ax.legend(loc='best');

这里写图片描述

看起来好像GBR拟合的更好，但是并不明显。让我们用95%置信区间（Confidence interval,CI）对比一下：

np.percentile(gbr_residuals, [2.5, 97.5])

array([-17.14322801,  17.05182403])

np.percentile(lr_residuals, [2.5, 97.5])

array([-19.79519628,  20.09744884])

GBR的置信区间更小，数据更集中，因此其拟合效果更好；我们还可以对GBR算法进行一些调整来改善效果。我用下面的例子演示一下，然后在下一节介绍优化方法：

n_estimators = np.arange(100, 1100, 350)
gbrs = [GBR(n_estimators=n_estimator) for n_estimator in n_estimators]
residuals = {}
for i, gbr in enumerate(gbrs):
    gbr.fit(X, y)
    residuals[gbr.n_estimators] = y - gbr.predict(X)

f, ax = plt.subplots(figsize=(7, 5))
f.tight_layout()
colors = {800:'r', 450:'g', 100:'b'}
for k, v in residuals.items():
    ax.hist(v,bins=20,label='n_estimators: %d' % k, color=colors[k], alpha=.5);
ax.set_title("Residuals at Various Numbers of Estimators")
ax.legend(loc='best');