提升树模型

新新的你

于 2024-08-07 16:13:15 发布

阅读量585

点赞数 12

分类专栏：机器学习文章标签： python 机器学习

本文链接：https://blog.csdn.net/2301_76697053/article/details/140994013

版权

机器学习专栏收录该内容

15 篇文章

订阅专栏

提升树（Boosting Tree）是一种集成学习方法，它通过组合多个弱分类器（通常是决策树）来构建一个强分类器。这种方法在许多统计学习任务中表现出色，被认为是性能最好的方法之一。

提升树模型概述

提升树模型是一种基于提升方法的集成学习技术，它使用加法模型和前向分步算法来逐步构建模型。在提升树中，决策树作为基本的分类器，可以是二叉分类树或二叉回归树，具体取决于问题是分类问题还是回归问题。

基本分类器

对于分类问题，基本分类器是一个简单的二叉分类树，通常称为决策树桩（Decision Stump）。它由一个根节点和两个叶节点组成，通过一个特征的阈值来分割数据。

对于回归问题，基本分类器是一个二叉回归树，它同样使用特征的阈值来预测连续值。

加法模型和前向分步算法

提升树模型采用加法模型，即将多个基函数（这里是决策树）的线性组合作为最终模型。前向分步算法是一种逐步添加基函数的方法，每一步都试图找到最优的决策树来减少残差。

提升树算法

回归问题的提升树算法

回归算法运用的例题:

解题如下：

Code

from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split
import numpy as np

# 示例数据，X为特征，y为目标变量
X = np.array([[0.5], [1], [2], [3], [4], [5], [6], [7], [8], [9], [10]])
y = np.array([5.56, 5.70, 5.91, 6.40, 6.80, 7.05, 8.90, 8.70, 9.00, 9.05])

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 初始化提升树回归模型
gradient_boosting_regressor = GradientBoostingRegressor(
    n_estimators=100,
    learning_rate=0.1,
    max_depth=3,
    loss='squared_error',  # 使用均方误差作为损失函数
    random_state=42
)

# 训练模型
gradient_boosting_regressor.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = gradient_boosting_regressor.predict(X_test)

# 计算测试集的均方误差
mse = ((y_test - y_pred) ** 2).mean()
print(f"Mean Squared Error: {mse}")

# 可视化提升树模型的性能
import matplotlib.pyplot as plt

plt.scatter(X_train, y_train, label='Training data')
plt.scatter(X_test, y_test, label='Test data')
plt.plot(X, gradient_boosting_regressor.predict(X), color='red', label='Regression Tree')

plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()

Mean Squared Error: 0.05479278432780284