监督学习 - 梯度提升回归（Gradient Boosting Regression）

草明

已于 2024-01-12 11:17:25 修改

阅读量2.8k

点赞数 11

分类专栏：数据结构与算法文章标签：回归 boosting 数据挖掘

于 2024-01-12 10:27:00 首次发布

本文链接：https://blog.csdn.net/galoiszhou/article/details/135546198

版权

数据结构与算法专栏收录该内容

88 篇文章

订阅专栏

什么是机器学习

梯度提升回归（Gradient Boosting Regression）是一种集成学习方法，用于解决回归问题。它通过迭代地训练一系列弱学习器（通常是决策树）来逐步提升模型的性能。梯度提升回归的基本思想是通过拟合前一轮模型的残差（实际值与预测值之差）来构建下一轮模型，从而逐步减小模型对训练数据的预测误差。

以下是梯度提升回归的主要步骤：

初始化：初始模型可以是一个简单的模型，比如均值模型。这个模型将用于第一轮训练。
迭代训练：对于每一轮迭代，都会训练一个新的弱学习器（通常是决策树），该学习器将拟合前一轮模型的残差。新模型的预测结果将与前一轮模型的预测结果相加，从而逐步改善模型的性能。
残差计算：在每一轮迭代中，计算实际值与当前模型的预测值之间的残差。残差表示模型尚未能够正确拟合的部分。
学习率：通过引入学习率（learning rate）来控制每一轮模型的权重。学习率是一个小于 1 的参数，它乘以每一轮模型的预测结果，用于缓慢地逼近真实的目标值。
停止条件：迭代可以在达到一定的轮数或者当模型的性能满足一定条件时停止。

在实际应用中，可以使用梯度提升回归的库，如Scikit-Learn中的GradientBoostingRegressor类，来实现梯度提升回归。

以下是一个简单的Python代码示例：

from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np
import matplotlib.pyplot as plt

# 创建示例数据集
np.random.seed(42)
X = np.sort(5 * np.random.rand(80, 1), axis=0)
y = np.sin(X).ravel() + np.random.normal(0, 0.1, X.shape[0])

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建梯度提升回归模型
gb_regressor = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)

# 在训练集上训练模型
gb_regressor.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = gb_regressor.predict(X_test)

# 评估模型性能
mse = mean_squared_error(y_test, y_pred)
print(f"均方误差（MSE）: {mse}")

# 可视化结果
plt.figure(figsize=(8, 6))
plt.scatter(X, y, s=20, edgecolor="black", c="darkorange", label="data")
plt.plot(X_test, y_pred, color="cornflowerblue", label="prediction")
plt.xlabel("data")
plt.ylabel("target")
plt.title("Gradient Boosting Regression")
plt.legend()
plt.show()