一文搞懂 XGBoost，从原理到实践去深入理解 XGBoost

我不是小upper

于 2025-04-08 14:30:12 发布

阅读量2.5k

点赞数 30

分类专栏：数据科学机器学习数据挖掘文章标签：机器学习人工智能 python

本文链接：https://blog.csdn.net/qq_70350287/article/details/147066486

版权

数据科学同时被 3 个专栏收录

51 篇文章

订阅专栏

机器学习

37 篇文章

订阅专栏

数据挖掘

10 篇文章

订阅专栏

在机器学习的广袤领域中，XGBoost（eXtreme Gradient Boosting）犹如一颗璀璨的明星，以其卓越的性能和高效的计算能力，在众多算法中脱颖而出，成为数据科学家和机器学习从业者们手中的得力工具。本文将带大家由浅入深地了解 XGBoost，通过原理剖析、案例讲解以及代码示例，全面掌握这一强大的算法。

一、XGBoost 是什么

XGBoost 是一个优化的分布式梯度增强库，是梯度提升算法的一种高效实现。它的核心在于将许多弱分类器（通常是决策树）组合成一个强大的分类器。每一个新的弱分类器都致力于纠正之前所有弱分类器的错误，通过不断迭代，逐步提升模型的准确性。

1.1 关键特性

高效计算：XGBoost 利用多线程并行处理技术，极大地加快了模型训练速度。同时，它支持分布式计算，能在大型分布式系统上运行，处理海量数据时也能保持高效。此外，在内存使用方面进行了优化，在大数据集上表现出色。
灵活性：该算法支持多种目标函数，无论是分类任务中的交叉熵损失，还是回归任务中的均方误差损失，都能轻松适配。并且允许用户自定义评估指标，以满足特定业务需求。在模型选择上，既支持基于树的模型，也支持线性模型，用户可根据具体问题灵活抉择。
正则化：为防止过拟合，XGBoost 在目标函数中引入了对树结构的正则化项。通过控制树的复杂度，使模型具有更好的泛化能力，即使面对复杂的数据分布，也能准确预测。
鲁棒性：实际数据中常常存在缺失值，XGBoost 具备自动处理缺失值的能力。在训练过程中，它能合理地处理这些缺失数据，不会因数据缺失而导致模型性能大幅下降。

1.2 工作原理

从本质上讲，XGBoost 采用加法模型，即通过不断累加弱学习器（决策树）来构建最终的强学习器。假设我们有n个样本，每个样本有m个特征，目标是预测样本的目标变量y。模型的预测结果 $\hat{y}$ 可以表示为多个弱学习器 $f_i(x)$ 的加权和：

$\hat{y}=\sum_{i = 1}^{K} f_i(x)$

其中，K是弱学习器的数量， $f_i(x)$ 第i个弱学习器对样本x的预测值。

在训练过程中，每增加一个新的弱学习器，都是为了最小化当前模型的损失。XGBoost 通过计算损失函数关于当前模型预测值的梯度和二阶导数（Hessian），来确定新弱学习器的结构和参数。简单来说，就是沿着损失函数下降最快的方向，逐步调整模型，使得预测值与真实值之间的差距越来越小。

二、应用案例

XGBoost 在各个领域都有广泛的应用，以下通过两个常见案例，展示其在实际问题中的强大能力。

2.1 分类任务：鸢尾花数据集分类

鸢尾花数据集是机器学习领域的经典数据集，包含三个类别（山鸢尾、变色鸢尾和维吉尼亚鸢尾）的鸢尾花，每个类别有 50 个样本，每个样本有 4 个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度）。我们使用 XGBoost 来预测鸢尾花的类别。

首先，导入必要的库并加载数据集：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import xgboost as xgb
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
data = load_iris()
X = data.data
y = data.target

# 将数据分为训练集和测试集（80%训练，20%测试）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

首先，from sklearn.datasets import load_iris：从 sklearn 库的 datasets 模块中导入 load_iris 函数，该函数用于加载鸢尾花数据集。鸢尾花数据集是一个经典的分类数据集，包含 150 个样本，分为 3 个类别（山鸢尾、变色鸢尾和维吉尼亚鸢尾），每个样本有 4 个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度）。

from sklearn.model_selection import train_test_split：从sklearn 库的 model_selection 模块中导入 train_test_split 函数，该函数用于将数据集划分为训练集和测试集，方便对模型进行评估。
import xgboost as xgb：导入 xgboost 库并将其重命名为 xgb，xgboost 是一个高效的梯度提升库，常用于分类和回归任务。
from sklearn.metrics import accuracy_score：从 sklearn 库的 metrics 模块中导入 accuracy_score 函数，该函数用于计算分类模型的准确率，即预测正确的样本数占总样本数的比例。
data = load_iris()：调用 load_iris 函数加载鸢尾花数据集，返回一个包含数据集信息的对象。
X = data.data：从 data 对象中提取特征数据，存储在变量 X 中。X 是一个二维数组，形状为 (150, 4)，表示有 150 个样本，每个样本有 4 个特征。
y = data.target：从 data 对象中提取标签数据，存储在变量 y 中。y 是一个一维数组，形状为 (150,)，表示每个样本对应的类别标签，标签值为 0、1 或 2，分别对应 3 个不同的鸢尾花类别。
train_test_split(X, y, test_size = 0.2, random_state = 42)调用 train_test_split 函数将数据集划分为训练集和测试集。
- X 和 y 分别是特征数据和标签数据。
- test_size = 0.2：指定测试集占总数据集的比例为 20%，那么训练集占比就是 80%。
- random_state = 42：设置随机种子，保证每次运行代码时数据集的划分结果相同，方便结果的复现。
X_train 和 y_train 分别是划分后的训练集特征数据和标签数据，X_test 和 y_test 分别是划分后的测试集特征数据和标签数据。

接着，将数据转换为 XGBoost 特有的 DMatrix 格式，这种格式能提高数据处理效率：

# 转换数据为DMatrix格式
dtrain = xgb.DMatrix(X_train, label = y_train)
dtest = xgb.DMatrix(X_test, label = y_test)

然后，设置 XGBoost 模型的参数。在多分类任务中，objective='multi:softmax'指定使用 softmax 函数作为目标函数来处理多分类问题，num_class=3表示类别个数为 3，eval_metric='merror'用于评估模型的多分类错误率，max_depth = 3控制树的最大深度：

# 设置XGBoost参数
params = {
    'objective':'multi:softmax',
    'num_class': 3,
    'eval_metric':'merror',
  'max_depth': 3
}

完成参数设置后，开始训练模型，num_boost_round=50表示训练 50 轮：

# 训练模型
bst = xgb.train(params, dtrain, num_boost_round = 50)

模型训练完成后，进行预测并计算准确率：

# 预测
y_pred = bst.predict(dtest)
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确率: {accuracy:.2f}")

在这个案例中，XGBoost 能够准确地对鸢尾花进行分类，通过调整参数，还可以进一步提升模型性能。

2.2 回归任务：波士顿房价预测

波士顿房价数据集包含 506 个样本，每个样本有 13 个特征（如犯罪率、住宅平均房间数等），目标是预测房屋的价格。

同样，先导入库并加载数据：

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
import xgboost as xgb
from sklearn.metrics import mean_squared_error

# 加载波士顿房价数据集
data = load_boston()
X = data.data
y = data.target

# 将数据分为训练集和测试集（80%训练，20%测试）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

再将数据转换为 DMatrix 格式：

# 转换数据为DMatrix格式
dtrain = xgb.DMatrix(X_train, label = y_train)
dtest = xgb.DMatrix(X_test, label = y_test)

对于回归任务，设置objective='reg:squarederror'表示使用均方误差作为目标函数，eval_metric='rmse'用于评估模型的均方根误差：

# 设置XGBoost参数
params = {
    'objective':'reg:squarederror',
    'eval_metric': 'rmse'
}

训练模型，这里设置训练 100 轮：

# 训练模型
bst = xgb.train(params, dtrain, num_boost_round = 100)

最后进行预测并计算均方根误差（RMSE），RMSE 越小，说明模型预测越准确：

# 预测
y_pred = bst.predict(dtest)
rmse = mean_squared_error(y_test, y_pred, squared = False)
print(f"模型均方根误差: {rmse:.2f}")

三、XGBoost 的参数调优

XGBoost 提供了丰富的参数，合理调整这些参数可以显著提升模型性能。以下介绍一些常用参数及调参方法。

3.1 常用参数

学习率（learning_rate，也叫 eta）：控制每棵树对最终结果的贡献程度。较小的学习率会使模型训练更加稳健，但需要更多的树来达到较好的效果；较大的学习率能加快训练速度，但可能导致模型过拟合。一般取值范围在 0.01 - 0.3 之间。
树的数量（n_estimators）：即弱学习器的数量。增加树的数量通常能提升模型性能，但过多的树会使模型变得复杂，增加过拟合风险。需要通过交叉验证等方法确定合适的数量。
最大深度（max_depth）：决定了树的深度，控制模型的复杂度。较深的树可以更好地拟合训练数据，但容易过拟合；较浅的树泛化能力强，但可能欠拟合。常见取值为 3 - 10。
子采样（subsample）：用于训练每棵树的样本比例。取值在 0 - 1 之间，通过减少训练样本数量，可以防止过拟合。例如，设置为 0.8 表示每棵树随机选择 80% 的样本进行训练。
列采样（colsample_bytree）：每次训练时选择特征的比例。取值在 0 - 1 之间，同样用于防止过拟合，通过减少特征数量，让模型更加泛化。

3.2 调参方法

这里我们使用网格搜索（Grid Search）来寻找最优参数组合。网格搜索会在给定的参数范围内，尝试所有可能的参数组合，然后选择性能最优的组合。

以鸢尾花数据集分类为例，使用网格搜索调参：

from sklearn.model_selection import GridSearchCV

# 设置参数范围
param_grid = {
  'max_depth': (3, 5, 7),
    'eta': (0.1, 0.3, 0.5),
  'subsample': (0.8, 1.0),
    'colsample_bytree': (0.8, 1.0)
}

# 创建XGBoost分类器
model = xgb.XGBClassifier(objective='multi:softmax', num_class = 3)

# 网格搜索
grid_search = GridSearchCV(model, param_grid, cv = 3, scoring='accuracy')
grid_search.fit(X_train, y_train)

# 输出最佳参数
print(f"最佳参数: {grid_search.best_params_}")

从 sklearn 库的 model_selection 模块中导入 GridSearchCV 类。GridSearchCV 是一个用于超参数调优的工具，它会在指定的参数网格中进行全面搜索，通过交叉验证的方式找到最优的参数组合。
param_grid 是一个字典，用于定义需要搜索的参数范围。
- 'max_depth': (3, 5, 7)：max_depth 是 XGBoost 中决策树的最大深度。这里指定了三个可能的值 3、5 和 7，表示在搜索过程中会尝试这三种不同的树深度。
- 'eta': (0.1, 0.3, 0.5)：eta 也称为学习率，它控制着每棵树对最终结果的贡献程度。这里指定了三个可能的值 0.1、0.3 和 0.5。
- 'subsample': (0.8, 1.0)：subsample 表示用于训练每棵树的样本比例。取值范围在 0 到 1 之间，这里指定了两个可能的值 0.8 和 1.0，分别表示使用 80% 和 100% 的样本进行训练。
- 'colsample_bytree': (0.8, 1.0)：colsample_bytree 表示每次训练时选择特征的比例。同样取值范围在 0 到 1 之间，这里指定了两个可能的值 0.8 和 1.0，分别表示使用 80% 和 100% 的特征进行训练。
xgb.XGBClassifier()：创建一个 XGBoost 分类器对象。
- objective='multi:softmax'：指定目标函数为 multi:softmax，这是用于多分类任务的目标函数，它会使用 softmax 函数将模型的输出转换为每个类别的概率。
- num_class = 3：指定分类的类别数量为 3，因为鸢尾花数据集有 3 个类别。

GridSearchCV(model, param_grid, cv = 3, scoring='accuracy')：创建一个 GridSearchCV 对象。
- model：传入之前创建的 XGBoost 分类器对象。
- param_grid：传入之前定义的参数网格。
- cv = 3：指定使用 3 折交叉验证。交叉验证是一种评估模型性能的方法，它会将数据集分成 cv 份，依次将其中一份作为验证集，其余作为训练集，进行多次训练和评估，最后取平均值作为模型的性能指标。
- scoring='accuracy'：指定评估指标为准确率，即预测正确的样本数占总样本数的比例。
grid_search.fit(X_train, y_train)：调用 fit 方法开始进行网格搜索。它会在参数网格中尝试所有可能的参数组合，使用 3 折交叉验证对每个组合进行评估，最终找到使准确率最高的参数组合。
grid_search.best_params_：GridSearchCV 对象的一个属性，它会返回在搜索过程中找到的最优参数组合。
print(f"最佳参数: {grid_search.best_params_}")：使用 f-string 格式化输出最佳参数组合。