GBDT、XGBoost、LightGBM，树模型全面对比！！

Python数据挖掘

于 2024-10-01 21:00:56 发布

阅读量341

点赞数 15

分类专栏：深度学习文章标签：人工智能算法机器学习 pytorch python

本文链接：https://blog.csdn.net/qq_34160248/article/details/142674653

版权

深度学习专栏收录该内容

22 篇文章 1 订阅

订阅专栏

最近已有不少大厂都在秋招宣讲了，也有一些在 Offer 发放阶段。

节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对新人如何快速入门算法岗、如何准备面试攻略、面试常考点、大模型项目落地经验分享等热门话题进行了深入的讨论。

总结链接：《算法岗面试宝典》(2024版) 正式发布！

喜欢本文记得收藏、关注、点赞。更多实战和面试交流，文末加入我们星球

今儿和大家聊聊GBDT、XGBoost和LightGBM的区别和联系~

GBDT（Gradient Boosting Decision Trees）、XGBoost（eXtreme Gradient Boosting）和LightGBM（Light Gradient Boosting Machine）都是基于**梯度提升（Gradient Boosting）**的集成学习算法模型。

它们通过构建一系列决策树，逐步减少误差，从而提升模型的预测性能。

GBDT

GBDT 是通过迭代训练多个弱学习器（通常是决策树），每一棵树都拟合前一棵树的残差，从而优化模型性能。它适用于分类和回归问题，如信用评分、用户分类、销量预测等。

XGBoost

XGBoost 是 GBDT 的改进版，具备更高的训练速度和性能优化。它引入了正则化控制模型复杂度，能够处理缺失值、具有更好的并行计算性能，适用于大规模数据集，如推荐系统、广告点击率预测等。

LightGBM

LightGBM 是一个基于梯度提升框架的高效算法，优化了大规模数据集下的训练效率，尤其在内存占用和计算速度方面表现出色。它常用于高维数据的分类和回归任务，如电商用户行为分析和金融风险评估。

能解决的问题：

分类问题：垃圾邮件分类、用户群体分类等。
回归问题：房价预测、股票价格预测等。
排序问题：推荐系统中的物品排序等。

总体而言，这些模型广泛应用于工业界和学术界的多种任务，擅长处理大规模、复杂的数据集，并具备较高的预测准确性和良好的性能表现。

下面，咱们详细的从原理方面解释一下：

原理部分

1. GBDT

GBDT 是基于**梯度提升（Gradient Boosting）**思想的一种集成学习方法。其核心思想是通过多个决策树模型的叠加，不断优化模型误差。每一棵树拟合的是前一棵树的残差（即预测误差），通过迭代减少误差，最终形成强大的预测模型。

核心公式

对于回归问题，GBDT 的目标是最小化损失函数，其中表示模型的预测值。模型通过以下过程迭代更新：

初始模型：
迭代训练第棵树时，首先计算前一轮的残差：
通过拟合残差构建新的决策树，并更新模型：

其中，是学习率，是拟合残差的新树。

算法流程：

使用损失函数的一阶和二阶导数拟合每棵新树。
加入正则化项，防止模型过拟合。
使用树的结构得分（gain）决定分裂点，以提高树的质量。
使用并行和分布式计算提升效率。

优缺点：

优点：计算效率高（支持并行和分布式）；加入正则化防止过拟合；支持自动处理缺失值；灵活性高，适合多种任务。
缺点：模型参数较多，调参复杂；占用内存较大，特别是在处理超大规模数据集时。

适用场景：

大规模数据集上的分类、回归和排序任务，如广告点击率预测、推荐系统、金融预测等。

2. XGBoost

XGBoost 是 GBDT 的优化版本，核心思想仍然是梯度提升，但它在计算效率、模型精度等方面进行了多种优化。它通过使用正则化控制模型复杂度，防止过拟合，并且支持分布式计算和多线程并行，提升了计算速度。

核心公式

XGBoost 的目标是通过加法模型最小化目标函数：

其中，是损失函数，是正则化项，用于控制模型的复杂度。XGBoost 的优化过程使用了泰勒展开的二阶导数加速计算梯度和误差更新：

其中，和分别是损失函数的一阶和二阶导数，能更快地拟合新树。

算法流程：

使用损失函数的一阶和二阶导数拟合每棵新树。
加入正则化项，防止模型过拟合。
使用树的结构得分（gain）决定分裂点，以提高树的质量。
使用并行和分布式计算提升效率。

优缺点：

优点：计算效率高（支持并行和分布式）；加入正则化防止过拟合；支持自动处理缺失值；灵活性高，适合多种任务。
缺点：模型参数较多，调参复杂；占用内存较大，特别是在处理超大规模数据集时。

适用场景：

大规模数据集上的分类、回归和排序任务，如广告点击率预测、推荐系统、金融预测等。

3. LightGBM

LightGBM 是一个高效的梯度提升框架，专为大数据集和高维数据集设计。LightGBM 使用基于直方图（Histogram-based）的决策树构建方法，并在算法设计上引入了多个优化，如叶节点按深度生长（Leaf-wise Growth）、**GOSS（Gradient-based One-Side Sampling）**等技术，来提升训练速度和资源利用率。

核心公式

LightGBM 仍然基于梯度提升的基本思想，但其改进在于：

直方图近似算法：通过将连续特征值离散化到直方图中，大幅减少了计算复杂度，尤其在高维度大规模数据时。
叶节点生长策略：LightGBM 使用的是叶节点按深度生长策略，优先选择提升最大的叶节点进行分裂，而不是按层生长。这样能更快找到最优分裂，提升训练效率。

算法流程：

生成直方图，离散化连续特征。
按照叶节点的增益优先生长，选择分裂。
利用 GOSS 技术，优先选取梯度较大的样本，提高计算效率。
重复上述步骤，直到达到预设的树的数量或误差收敛。

优缺点：

优点：训练速度快（基于直方图的算法），尤其适合大数据集；内存占用少；在分类和回归任务中表现优异。
缺点：复杂模型解释性较差；对于小数据集和浅层模型，效果不如其他方法。

适用场景：

超大规模、高维数据的分类、回归任务，如电商推荐系统、大规模金融风险分析、海量文本分类任务等。

三者的优缺点对比：

模型	优点	缺点	适用场景
GBDT	稳定，适合小数据集；无需特征归一化和特征工程	训练时间较长，无法并行处理，调参复杂	小数据集的分类和回归任务
XGBoost	支持并行计算，加入正则化防止过拟合；训练速度快	内存占用大，调参复杂	大规模数据集的分类、回归、排序
LightGBM	训练速度快，适合大规模数据；内存占用少	对小数据集不如 XGBoost 稳定，模型解释性较差	超大规模数据集，高维任务

总结来说：

GBDT 更适合处理小规模数据任务，具有稳定的表现。
XGBoost 在中大规模数据集上表现优异，适合复杂任务和需要较强模型解释性的时候。
LightGBM 在大数据、高维度场景下具有极高的计算效率，适合大规模机器学习任务。

最后，咱们举一个全面的案例进行比较，大家也有一个更加深层次的理解~

完整案例

案例标题：GBDT vs. XGBoost vs. LightGBM：集成学习模型的性能与适用性对比

要解决的问题

在该案例中，我们希望解决一个典型的分类问题，即对虚拟数据集中的数据点进行准确分类。数据集将具有较大的维度和噪声。我们比较三种算法模型（GBDT、XGBoost和LightGBM）在分类任务中的性能和适用性，包括训练速度、模型性能（如AUC-ROC）、调参难度和模型的可扩展性。

目标

提升模型的分类准确率。
优化模型训练时间，提升在大规模数据集上的计算效率。
分析模型的可扩展性以及调参的难易度。

数据集与方法

我们将生成一个虚拟的二分类数据集，其中包含2个类别的样本，并具有100个特征，部分特征具有噪声。通过对比XGBoost、LightGBM和GBDT的分类效果、训练速度和模型复杂性，得出适用性结论。

1. 代码实现

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import roc_auc_score, accuracy_score, roc_curve
from sklearn.ensemble import GradientBoostingClassifier
from xgboost import XGBClassifier
import lightgbm as lgb
import time

# 数据集
X, y = make_classification(n_samples=10000, n_features=100, n_informative=10, 
                           n_redundant=10, n_classes=2, random_state=42, flip_y=0.01)

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型、性能指标的功能
def evaluate_model(model, X_train, y_train, X_test, y_test):
    start_time = time.time()
    model.fit(X_train, y_train)
    train_time = time.time() - start_time
    
    y_pred = model.predict(X_test)
    y_pred_prob = model.predict_proba(X_test)[:, 1]
    
    accuracy = accuracy_score(y_test, y_pred)
    roc_auc = roc_auc_score(y_test, y_pred_prob)
    
    return train_time, accuracy, roc_auc

# 1. GBDT model
gbdt = GradientBoostingClassifier()
gbdt_time, gbdt_accuracy, gbdt_auc = evaluate_model(gbdt, X_train, y_train, X_test, y_test)

# 2. XGBoost model
xgb = XGBClassifier(use_label_encoder=False, eval_metric='logloss')
xgb_time, xgb_accuracy, xgb_auc = evaluate_model(xgb, X_train, y_train, X_test, y_test)

# 3. LightGBM model
lgbm = lgb.LGBMClassifier()
lgbm_time, lgbm_accuracy, lgbm_auc = evaluate_model(lgbm, X_train, y_train, X_test, y_test)

# 比较结果
print(f"GBDT - Time: {gbdt_time:.2f}s, Accuracy: {gbdt_accuracy:.4f}, AUC: {gbdt_auc:.4f}")
print(f"XGBoost - Time: {xgb_time:.2f}s, Accuracy: {xgb_accuracy:.4f}, AUC: {xgb_auc:.4f}")
print(f"LightGBM - Time: {lgbm_time:.2f}s, Accuracy: {lgbm_accuracy:.4f}, AUC: {lgbm_auc:.4f}")

2. 模型调参与比较

使用GridSearchCV进行XGBoost和LightGBM模型的超参数调优，并记录调参前后的性能变化。

# XGBoost超参数调整
xgb_params = {
    'n_estimators': [50, 100],
    'learning_rate': [0.01, 0.1],
    'max_depth': [3, 6, 9]
}

grid_xgb = GridSearchCV(XGBClassifier(use_label_encoder=False, eval_metric='logloss'), xgb_params, cv=3, scoring='roc_auc')
grid_xgb.fit(X_train, y_train)
print("Best XGBoost Parameters:", grid_xgb.best_params_)
xgb_best = grid_xgb.best_estimator_

# LightGBM超参数调整
lgb_params = {
    'n_estimators': [50, 100],
    'learning_rate': [0.01, 0.1],
    'max_depth': [3, 6, 9]
}

grid_lgbm = GridSearchCV(lgb.LGBMClassifier(), lgb_params, cv=3, scoring='roc_auc')
grid_lgbm.fit(X_train, y_train)
print("Best LightGBM Parameters:", grid_lgbm.best_params_)
lgbm_best = grid_lgbm.best_estimator_

3. 模型对比：可视化分析

接下来，我们将通过绘制ROC曲线、训练时间对比条形图以及AUC-ROC对比图来进行不同模型的性能对比。

# Plot ROC curves
def plot_roc_curve(models, X_test, y_test, title):
    plt.figure(figsize=(10, 6))
    
    for name, model in models.items():
        y_pred_prob = model.predict_proba(X_test)[:, 1]
        fpr, tpr, _ = roc_curve(y_test, y_pred_prob)
        plt.plot(fpr, tpr, label=f"{name} (AUC = {roc_auc_score(y_test, y_pred_prob):.4f})")
    
    plt.plot([0, 1], [0, 1], 'k--')
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title(title)
    plt.legend(loc="lower right")
    plt.show()

# Model ROC Curves
models = {
    "GBDT": gbdt,
    "XGBoost": xgb_best,
    "LightGBM": lgbm_best
}
plot_roc_curve(models, X_test, y_test, "ROC Curves for GBDT, XGBoost, and LightGBM")

# Plot training time comparison
def plot_training_time(times, title):
    plt.figure(figsize=(8, 5))
    model_names = ['GBDT', 'XGBoost', 'LightGBM']
    plt.barh(model_names, times, color=['#FF6347', '#4682B4', '#32CD32'])
    plt.xlabel('Training Time (seconds)')
    plt.title(title)
    plt.show()

train_times = [gbdt_time, xgb_time, lgbm_time]
plot_training_time(train_times, 'Training Time Comparison')

# Plot AUC comparison
def plot_auc_comparison(aucs, title):
    plt.figure(figsize=(8, 5))
    model_names = ['GBDT', 'XGBoost', 'LightGBM']
    plt.barh(model_names, aucs, color=['#FF6347', '#4682B4', '#32CD32'])
    plt.xlabel('AUC Score')
    plt.title(title)
    plt.show()

aucs = [gbdt_auc, xgb_auc, lgbm_auc]
plot_auc_comparison(aucs, 'AUC Score Comparison')

4. 分析与结论

训练时间：10000条数据训练模型情况下，XGBoost表现出最快的训练速度，紧随其后的是LightGBM，而GBDT速度最慢。这表明XGBoost在比较大的数据场景中的计算效率优势。如果在再大规模的数据集下，可能LightGBM要比XGBoost更快速。

GBDT - Time: 21.93s, Accuracy: 0.9100, AUC: 0.9694
XGBoost - Time: 0.86s, Accuracy: 0.9245, AUC: 0.9781
LightGBM - Time: 1.66s, Accuracy: 0.9305, AUC: 0.9793