scikit-learn : GBR (Gradient boosting regression)

背景

梯度提升回归(Gradient boosting regression,GBR)是一种从它的错误中进行学习的技术。它本质上就是集思广益,集成一堆较差的学习算法进行学习。有两点需要注意:
- 每个学习算法准备率都不高,但是它们集成起来可以获得很好的准确率。
- 这些学习算法依次应用,也就是说每个学习算法都是在前一个学习算法的错误中学习

准备模拟数据

我们还是用基本的回归数据来演示GBR:

import numpy as np
from sklearn.datasets import make_regression
X, y = make_regression(1000, 2, noise=10)

GBR原理

GBR算是一种集成模型因为它是一个集成学习算法。这种称谓的含义是指GBR用许多较差的学习算法组成了一个更强大的学习算法:

from sklearn.ensemble import GradientBoostingRegressor as GBR
gbr = GBR()
gbr.fit(X, y)
gbr_preds = gbr.predict(X)

很明显,这里应该不止一个模型,但是这种模式现在很简明。现在,让我们用基本回归算法来拟合数据当作参照:

from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(X, y)
lr_preds = lr.predict(X)

有了参照之后,让我们看看GBR算法与线性回归算法效果的对比情况。图像生成可以参照第一章正态随机过程的相关主题,首先需要下面的计算:

gbr_residuals = y - gbr_preds
lr_residuals = y - lr_preds
%matplotlib inline
from matplotlib import pyplot as plt
f, ax = plt.subplots(figsize=(7, 5))
f.tight_layout()
ax.hist(gbr_residuals,bins=20,label='GBR Residuals', color='b', alpha=.5);
ax.hist(lr_residuals,bins=20,label='LR Residuals', color='r', alpha=.5);
ax.set_title("GBR Residuals vs LR Residuals")
ax.legend(loc='best');

这里写图片描述

看起来好像GBR拟合的更好,但是并不明显。让我们用95%置信区间(Confidence interval,CI)对比一下:

np.percentile(gbr_residuals, [2.5, 97.5])
array([-17.14322801,  17.05182403])
np.percentile(lr_residuals, [2.5, 97.5])
array([-19.79519628,  20.09744884])

GBR的置信区间更小,数据更集中,因此其拟合效果更好;我们还可以对GBR算法进行一些调整来改善效果。我用下面的例子演示一下,然后在下一节介绍优化方法:

n_estimators = np.arange(100, 1100, 350)
gbrs = [GBR(n_estimators=n_estimator) for n_estimator in n_estimators]
residuals = {}
for i, gbr in enumerate(gbrs):
    gbr.fit(X, y)
    residuals[gbr.n_estimators] = y - gbr.predict(X)
f, ax = plt.subplots(figsize=(7, 5))
f.tight_layout()
colors = {800:'r', 450:'g', 100:'b'}
for k, v in residuals.items():
    ax.hist(v,bins=20,label='n_estimators: %d' % k, color=colors[k], alpha=.5);
ax.set_title("Residuals at Various Numbers of Estimators")
ax.legend(loc='best');

这里写图片描述

图像看着有点混乱,但是依然可以看出随着估计器数据的增加,误差在减少。不过,这并不是一成不变的。首先,我们没有交叉检验过,其次,随着估计器数量的增加,训练时间也会变长。现在我们用数据比较小没什么关系,但是如果数据再放大一两倍问题就出来了。

GBR参数设置

上面例子中GBR的第一个参数是n_estimators,指GBR使用的学习算法的数量。通常,如果你的设备性能更好,可以把n_estimators设置的更大,效果也会更好。还有另外几个参数要说明一下。

你应该在优化其他参数之前先调整max_depth参数。因为每个学习算法都是一颗决策树,max_depth决定了树生成的节点数。选择合适的节点数量可以更好的拟合数据,而更多的节点数可能造成拟合过度。

loss参数决定损失函数,也直接影响误差。ls是默认值,表示最小二乘法(least squares)。还有最小绝对值差值,Huber损失和分位数损失(quantiles)等等。

  • 10
    点赞
  • 81
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
这个错误通常发生在使用 Pandas 和 scikit-learn 库时,其中一个库使用的数据列名与另一个库不同。出现这种情况的原因可能是数据的列名不一致或者缺少某些列。 解决方法如下: 1. 确保数据列名一致。可以通过使用 `df.columns` 属性查看 Pandas 数据框的列名,并使用 `model.feature_names_` 查看 scikit-learn 模型的特征名称。如果两者不一致,则需要将它们调整成一致的列名。 2. 确保数据中包含所需的列。如果 scikit-learn 模型需要的列在 Pandas 数据框中不存在,则需要添加这些列。 3. 确保数据的顺序正确。有时候,数据的顺序可能不一致,导致 scikit-learn 模型无法识别数据。可以使用 `df.reindex` 对数据进行排序。 举个例子,假设我们有两个数据集,一个是 Pandas 数据框,包括两列 'x' 和 'y',另一个是 scikit-learn 模型,需要特征名称为 'a' 和 'b'。我们需要将 Pandas 数据框的列名 'x' 和 'y' 调整为 scikit-learn 模型的特征名称 'a' 和 'b',并且确保数据顺序正确,如下所示: ``` import pandas as pd from sklearn.linear_model import LinearRegression # 创建 Pandas 数据框 df = pd.DataFrame({'x': [1, 2, 3], 'y': [4, 5, 6]}) # 创建 scikit-learn 模型 model = LinearRegression() # 将 Pandas 数据框的列名调整为 scikit-learn 模型的特征名称 df.columns = ['a', 'b'] # 确保数据顺序正确 df = df.reindex(columns=model.feature_names_) # 训练模型 model.fit(df, [1, 2, 3]) ``` 这样就可以避免出现 KeyError 错误了。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值