梯度提升回归树

最新推荐文章于 2024-04-30 10:06:39 发布

Gaolw1102

最新推荐文章于 2024-04-30 10:06:39 发布

阅读量3.6k

点赞数 4

分类专栏：机器学习文章标签：回归机器学习 sklearn

本文链接：https://blog.csdn.net/weixin_43479947/article/details/126813033

版权

机器学习专栏收录该内容

19 篇文章 7 订阅

订阅专栏

梯度提升回归树(梯度提升机)

梯度提升回归树是区别于随机森林的另一种集成方法，它的特点在于纠正与加强，通过合并多个决策树来构建一个更为强大的模型。

该模型即可以用于分类问题，也可以用于回归问题中。

梯度提升回归树与随机森林的方法不同，梯度提升采用连续的方式构造树，每颗树都试图纠正前一颗树的错误，也可称为弱学习器。

三个重要参数

在该模型中，有三个重要参数分别为 n_estimators(子树数量)、learning_rate(学习率)、max_depth(最大深度)。

子树数量 n_estimators

通常用来设置纠正错误的子树数量，梯度提升树通常使用深度很小(1到 5之间)的子树，即强预剪枝，来进行构造强化树。

并且这样占用的内存也更少，预测速度也更快。

学习率 learning_rate

通常用来控制每颗树纠正前一棵树的强度。

较高的学习率意味着每颗树都可以做出较强的修正，这样的模型普遍更复杂。

最大深度 max_depth

通常用于降低每颗树的复杂度，从而避免深度过大造成过拟合的现象。

梯度提升模型的 max_depth 通常都设置得很小，一般来讲不超过5。

GradientBoostingClassifier类的应用

下面是在乳腺癌数据集上应用sklearn.ensemble包GradientBoostingClassifier类的示例。

默认参数

默认使用100颗树，最大深度为3，学习率为0.1。

from sklearn.ensemble import GradientBoostingClassifier           #引入梯度提升回归树类
from sklearn.datasets import load_breast_cancer                   #加载乳腺癌数据集
from sklearn.model_selection import train_test_split              #引入切分数据集方法

cancer = load_breast_cancer()

X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)    #切分数据集


grbt = GradientBoostingClassifier()         #定义梯度提升回归树模型
grbt.fit(X_train, y_train)                  #训练数据


print('Accuracy on training set: {:.3f}'.format(grbt.score(X_train, y_train)))
print('Accuracy on test set: {:.3f}'.format(grbt.score(X_test, y_test)))                            #输出训练集与测试集的结果

Accuracy on training set: 1.000
Accuracy on test set: 0.965

可见训练集的预测准确度为 100%，测试集的准确度为 96.5%, 存在过拟合现象，接下来微调参数。

降低最大深度 max_depth

from sklearn.ensemble import GradientBoostingClassifier           #引入梯度提升回归树类
from sklearn.datasets import load_breast_cancer                   #加载乳腺癌数据集
from sklearn.model_selection import train_test_split              #引入切分数据集方法

cancer = load_breast_cancer()

X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)    #切分数据集


grbt = GradientBoostingClassifier(max_depth=1)         #定义梯度提升回归树模型，子树最大深度设置为 1
grbt.fit(X_train, y_train)                             #训练数据


print('Accuracy on training set: {:.3f}'.format(grbt.score(X_train, y_train)))
print('Accuracy on test set: {:.3f}'.format(grbt.score(X_test, y_test)))                            #输出训练集与测试集的结果

Accuracy on training set: 0.991
Accuracy on test set: 0.972

可见，测试集性能有所提升，训练集性能有所降低，泛化能力加强。

降低学习率 learning_rate

from sklearn.ensemble import GradientBoostingClassifier           #引入梯度提升回归树类
from sklearn.datasets import load_breast_cancer                   #加载乳腺癌数据集
from sklearn.model_selection import train_test_split              #引入切分数据集方法

cancer = load_breast_cancer()

X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)    #切分数据集


grbt = GradientBoostingClassifier(learning_rate=0.01)         #定义梯度提升回归树模型，学习率设置为 0.01
grbt.fit(X_train, y_train)                                    #训练数据


print('Accuracy on training set: {:.3f}'.format(grbt.score(X_train, y_train)))
print('Accuracy on test set: {:.3f}'.format(grbt.score(X_test, y_test)))                            #输出训练集与测试集的结果

Accuracy on training set: 0.988
Accuracy on test set: 0.958

可见，训练集与测试集预测准确度都有所下降，且泛化能力无明显加强，故学习率取默认值较好。

特征重要性分析

我们可以将梯度提升回归树的特征重要性可视化，便于更好地理解模型。

import matplotlib.pyplot as plt
import numpy as np

def plot_feature_importance_cancer(model):
    
    #获取到特征的个数
    n_features = cancer.data.shape[1]
    
    #根据重要性进行绘图
    plt.barh(range(n_features), model.feature_importances_, align='center')
    
    plt.yticks(np.arange(n_features), cancer.feature_names)
    plt.xlabel('Feature importance')
    plt.ylabel('Feature')

grbt = GradientBoostingClassifier(max_depth=1)                #树的最大深度设置为1
grbt.fit(X_train, y_train)                                    #训练数据
#绘图画出重要性
plot_feature_importance_cancer(grbt)