【Sklearn-驯化】成功学会Xgboost的原理以及实践技巧

算法驯化师

已于 2024-07-05 10:17:04 修改

阅读量1.1k

点赞数 16

分类专栏： # 机器学习 # sklearn修炼文章标签： sklearn 人工智能 python 算法机器学习 xgboost

于 2024-07-05 10:16:19 首次发布

本文链接：https://blog.csdn.net/lov1993/article/details/140200727

版权

sklearn修炼同时被 2 个专栏收录

23 篇文章 0 订阅

订阅专栏

机器学习

15 篇文章 0 订阅

订阅专栏

【Sklearn-驯化】成功学会Xgboost的原理以及实践技巧

本次修炼方法请往下查看
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合，智慧小天地！
🎇 免费获取相关内容文档关注：微信公众号，发送 pandas 即可获取
🎇 相关内容视频讲解 B站

🎓 博主简介：AI算法驯化师，混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+，熟练掌握机器、深度学习等各类应用算法原理和项目实战经验。

🔧 技术专长：在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务，助力多位小伙伴在学习、求职、工作上少走弯路、提高效率，近一年好评率100% 。

📝 博客风采：积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。

🎯 1. 基本介绍

XGBoost（eXtreme Gradient Boosting）是一种高效的梯度提升框架，它使用树算法来解决分类和回归问题。XGBoost在许多机器学习竞赛中表现出色，因其速度快、精度高而受到广泛欢迎。

Xgboost是GBDT算法的一种很好的工程实现，并且在算法上做了一些优化，主要的优化在一下几点。首先Xgboost加了一个衰减因子，相当于一个学习率，可以减少加进来的树对于原模型的影响，让树的数量变得更多；其次是在原GBDT模型上加了个正则项，对于树的叶子节点的权重做了一个约束；还有增加了在随机森林上常用的col subsample的策略；然后使用二阶泰勒展开去拟合损失函数，加快优化的效率；然后最大的地方在于不需要遍历所有可能的分裂点了，它提出了一种估计分位数分裂点的算法，就是将每个特征值下的数据进行分桶，然后对每个桶进行计算就可以了。在工程上做了一个算法的并发实现，具体我并不了解如何实现的。
xgboost中的w是最优化求出来的，不是向cart树那样求均值得出的，这算是该算法的一个比较大的创新吧
使用了许多策略去防止过拟合，如：正则化项、Shrinkage、列采用
调加了对稀疏数据的处理（将缺失值加入到左右两个节点分别进行测试），支持设置样本权重，可以调整权重关注一些特殊的样本
支持自定义loss function，只要能进行泰勒展开（能求一阶导和二阶导）就行
支持并行化：在选择最佳分裂点，进行枚举的时候并行（这也是树形成最耗时的阶段）,同层级节点可并行，节点内选择最佳分裂点。
xgboost采用预排序算法来加快分裂的速度（感觉是针对连续型的特征）
GBM采用直方图的算法将连续型的特征离散化成k个整数，这样可以明显减小内存的使用，
GBM采用leaf-wise分裂策略，而xgboost采用level-wise策略，前者每次分裂的时候每次选择同级中最优的叶子节点进行分裂，而后者不管收益直接进行划分，因此，前者可以降低更多的误差，得到更好的精度，但是当样本量过少时，可能造成过拟合，但是可以通过设置树的深度等来控制过拟合现象
GBM支持类别变量，不需要对类别特征进行one-hot编码处理
xgboost采用的是level-wise的分裂策略，而lightGBM采用了leaf-wise的策略，区别是xgboost对每一层所有节点做无差别分裂，可能有些节点的增益非常小，对结果影响不大，但是xgboost也进行了分裂，带来了务必要的开销。 leaft-wise的做法是在当前所有叶子节点中选择分裂收益最大的节点进行分裂，如此递归进行，很明显leaf-wise这种做法容易过拟合，因为容易陷入比较高的深度中，因此需要对最大深度做限制，从而避免过拟合。
lightgbm使用了基于histogram的决策树算法，这一点不同与xgboost中的 exact 算法，histogram算法在内存和计算代价上都有不小优势。1）内存上优势：很明显，直方图算法的内存消耗为(#data* #features * 1Bytes)(因为对特征分桶后只需保存特征离散化之后的值)，而xgboost的exact算法内存消耗为：(2 * #data * #features* 4Bytes)，因为xgboost既要保存原始feature的值，也要保存这个值的顺序索引，这些值需要32位的浮点数来保存。2）计算上的优势，预排序算法在选择好分裂特征计算分裂收益时需要遍历所有样本的特征值，时间为(#data),而直方图算法只需要遍历桶就行了，时间为(#bin)
直方图做差加速，一个子节点的直方图可以通过父节点的直方图减去兄弟节点的直方图得到，从而加速计算。
lightgbm支持直接输入categorical 的feature，在对离散特征分裂时，每个取值都当作一个桶，分裂时的增益算的是”是否属于某个category“的gain。类似于one-hot编码。
xgboost在每一层都动态构建直方图，因为xgboost的直方图算法不是针对某个特定的feature，而是所有feature共享一个直方图(每个样本的权重是二阶导),所以每一层都要重新构建直方图，而lightgbm中对每个特征都有一个直方图，所以构建一次直方图就够了。
xgboost如何处理数据不平衡数据：通过调节样本的权重，将少的样本权重设置大一些
xgboost为什么要用二阶导效果好些，因为二阶导更容易收邻，海森矩阵是用就考虑梯度的方向
xgboost为什么正则项加入了w，因为w相当于l2正则，T相当于l1正则，不想要树的深度太深，也不想叶子节点权重太大
①gain 增益意味着相应的特征对通过对模型中的每个树采取每个特征的贡献而计算出的模型的相对贡献。与其他特征相比，此度量值的较高值意味着它对于生成预测更为重要。
②cover 覆盖度量指的是与此功能相关的观测的相对数量。例如，如果您有100个观察值，4个特征和3棵树，并且假设特征1分别用于决定树1，树2和树3中10个，5个和2个观察值的叶节点;那么该度量将计算此功能的覆盖范围为10 + 5 + 2 = 17个观测值。这将针对所有4项功能进行计算，并将以17个百分比表示所有功能的覆盖指标。
③freq 频率（频率）是表示特定特征在模型树中发生的相对次数的百分比。在上面的例子中，如果feature1发生在2个分裂中，1个分裂和3个分裂在每个树1，树2和树3中;那么特征1的权重将是2 + 1 + 3 = 6。特征1的频率被计算为其在所有特征的权重上的百分比权重。

💡 2. xgboost算法原理

XGBoost的思想就是希望建立K个回归树，使得树群的预测值尽量接近真实值并且其有尽量大的泛化能力，这个从数学角度来讲，目标函数可以写为：

$L(\phi)=\sum_{i}l(y_{i}^{'}-y_i)+\sum_{k} \Omega(f_k)$
其中前面的一项为样本的预测误差和，后面的一项为树的复杂度，我们知道复杂度越低，其模型的泛化能力也就越强

在推导之前，首先介绍一下泰勒展开公式：

$f(x+\Delta(x)) \approx f(x)+f^{'}(x)\Delta(x)+\frac{1}{2}f^{''}(x)\Delta x^2$

对与一颗回归树，无非就是选择哪个feature进行分裂，但是又要叶节节点的个数和深度不要太大（泛化能力），那么怎么做呢，通过贪心策略和二次优化来处理，将所有的样本放到每个节点上进行loss的计算，如果loss为平方误差，此时问题就是一个关于w的二次函数求最小值的问题，但是如果loss不是二次函数咋办，此时，泰勒公式就出场了，我们可以使用泰勒公式去近似将其转为二次即可，了解其基本思想后，原理的推导就很简单了，具体如下所示：

$Obj(\theta)=\sum_{i=1}^{n}l(y_i, y_{i}^{'})+\sum_{k=1}^{K} \Omega(f_k)$ , 后面一项为第k颗树的正则项
$\Omega(f_t)=rT+\frac{1}{2}\lambda\sum_{i=1}^{T}w_j^2$ ,其中 $w_{q(x)}$ 为对于的叶子节点的得分值, $q (x)$ 为样本x对应的叶子节点

对上述的loss函数进行泰勒展开，将 $f(x_i)$ 看成为 $\Delta(x)$ ，则：

$Obj^t(\theta)=\sum_{i=1}^{n}l(y_i, \hat{y}_{i}^{(t)})+\sum_{k=1}^{t}\Omega(f_k)$
$Obj^t(\theta)=\sum_{i=1}^{n}l(y_i, \hat{y}_{i}^{(t-1)}+f_t(x_i))+rT+\frac{1}{2}\lambda\sum_{i=1}^{T}w_j^2+C$
$Obj^t(\theta)\approx\sum_{i=1}^{n}l(y_i, \hat{y}_{i}^{(t-1)})+\partial_{\hat{y}^{(t-1)}}l(y_i,\hat{y}_{i}^{(t-1)})f_t(x_i) + \frac{1}{2}\partial_{\hat{y}^{(t-1)}}^2l(y_i,\hat{y}_{i}^{(t-1)})f_t(x_i)^2 +rT+\frac{1}{2}\lambda\sum_{i=1}^{T}w_j^2+C$

为了表达方便，令 $g_i=\partial_{\hat{y}^{(t-1)}}l(y_i,\hat{y}_{i}^{(t-1)}), h_i = \partial_{\hat{y}^{(t-1)}}^2l(y_i,\hat{y}_{i}^{(t-1)})$ ,在这个时刻对于第t颗树， $l(y_i,\hat{y}_{i}^{(t-1)})$ 为常数，因此，对上述的公式删除所有的常数项，故，目标函数可改写为：

$Obj^t(\theta)\approx\sum_{i=1}^{n}[g_if_t(x_i)+\frac{1}{2}h_if_t(x_i)^2]+rT+\frac{1}{2}\lambda\sum_{i=1}^{T}w_j^2$

其中 $f_t(x)=w_{q(x)}, w\in R^T$ , 为了后续的理解，将样本在每个也只节点的得分之和 $\sum_{i=1}^{n}[g_if_t(x_i)+\frac{1}{2}h_if_t(x_i)^2]$ 的表达形式改写为落在每颗树的叶子节点上的样本的形式，因此，上述目标函数可改写为：

$Obj^t(\theta)\approx\sum_{i=1}^{n}[g_if_t(x_i)+\frac{1}{2}h_if_t(x_i)^2]+rT+\frac{1}{2}\lambda\sum_{i=1}^{T}w_j^2$
$Obj^t(\theta)\approx\sum_{i=1}^{n}[g_iw_{q(x_i)}+\frac{1}{2}h_iw_{q(x_i)}^2]+rT+\frac{1}{2}\lambda\sum_{i=1}^{T}w_j^2$

改写为：

$Obj^t(\theta)\approx\sum_{j=1}^{T}[(\sum_{i \in I_j}g_i)w_{j}+(\frac{1}{2}\sum_{i \in I_j}h_i)w_{j}^2]+rT+\frac{1}{2}\lambda\sum_{i=1}^{T}w_j^2$
$Obj^t(\theta)\approx\sum_{j=1}^{T}[(\sum_{i \in I_j}g_i)w_{j}+\frac{1}{2}(\sum_{i \in I_j}h_i+\lambda)w_{j}^2]+rT$

其中 $w_j$ 为第j个叶子节点的得分值, $I_j$ 为第j个叶子节点上的样本，再令：

$G_j = \sum_{i \in I_j}g_i, H_j = \sum_{i \in I_j}h_i$

则上述的目标函数可简写为：

$Obj^t(\theta)\approx\sum_{j=1}^{T}[G_jw_{j}+\frac{1}{2}(H_j+\lambda)w_{j}^2]+rT$

对上述的公式中的参数 $w_j$ 进行求偏导，并使其导数等于0，则有：

$G_j + (H_j + \lambda)w_j = 0$
$w_j^{*}= -\frac{G_j}{H_j + \lambda}$

在将w代入到目标函数中，即可解得：

$Obj^* \approx -\frac{1}{2}\sum_{j=1}^{T}\frac{G_j^2}{H_j + \lambda}+rT$

上述的目标obj代表了我们指定一个树的结构时，我们在目标上面最多减小多少，当进行特征的数值分裂时，可以计算分裂后的熵哪个最大，具体的计算公式如下所示：

$\frac{1}{2}[\frac{G_L^2}{H_L + \lambda}+\frac{G_R^2}{H_L + \lambda} - \frac{(G_R+G_L)^2}{H_L +H_R+ \lambda}]-r$

上式中第一项为左子树的分数，第二项为右子树的分数，最后一项为不分割的分数，因此，通过对特征进行不断的遍历，得到分数最大的特征以及特征值，依次循环不断构造树结构

💡 3. 使用方法

我们将通过xgboost算法来行回归预测，具体的代码实践如下所示：

import numpy as np 
import pandas as pd 
import re 
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, r2_score
import lightgbm as lgb
import xgboost as xgb


df = pd.read_csv('翼型数据集.csv', encoding='gbk')
col_dict = dict(zip(set(df['翼型名称']), [i for i in range(len(set(df['翼型名称'])))]))
df['翼型名称'] = df['翼型名称'].map(col_dict)

print(f"the data shape is : {df.shape}")
print(df.head())
print(df.columns)
train_x, test_x = train_test_split(df, random_state=100, test_size=0.2, stratify=df['攻角 (degrees)'])
train_y, test_y = train_x['攻角 (degrees)'], test_x['攻角 (degrees)']
train_x = train_x.drop('攻角 (degrees)', axis=1)
test_x = test_x.drop('攻角 (degrees)', axis=1)


# 模型训练gbm

model = lgb.LGBRegressor(
    boosting_type='gbdt',  # 基学习器 gbdt:传统的梯度提升决策树; dart:Dropouts多重加性回归树
    n_estimators=100,  # 迭代次数
    learning_rate=0.1,  # 步长
    max_depth=4,  # 树的最大深度
    min_child_weight=1,  # 决定最小叶子节点样本权重和
    # min_split_gain=0.1,  # 在树的叶节点上进行进一步分区所需的最小损失减少
    subsample=1,  # 每个决策树所用的子样本占总样本的比例（作用于样本）
    colsample_bytree=1,  # 建立树时对特征随机采样的比例（作用于特征）典型值：0.5-1
    random_state=27,  # 指定随机种子，为了复现结果
    importance_type='gain',  # 特征重要性的计算方式，split:分隔的总数; gain:总信息增益
    objective='mae',
)

model.fit(train_x, train_y, eval_metric="auc_mu", verbose=10, \
                          eval_set=[(train_x, train_y), (test_x, test_y)], \
                         )
print(f"the mae is: ", mean_absolute_error([int(i) for i in model.predict(test_x)], test_y))
print(pd.DataFrame({"predict":[int(i) for i in model.predict(test_x)], 'real':test_y}))


# 模型训练xgb
xgb_Regressor = xgb.XGBRegressor(
        learning_rate=0.01,
        n_estimators=100,
        max_depth=3,
        min_child_weight=1,
        gamma=0,
        objective='mae',
        subsample=0.8,
        colsample_bytree=0.8,
        nthread=4,
        scale_pos_weight=1,
        seed=27
    )
xgb_Regressor.fit(train_x, train_y, eval_metric="auc", verbose=10,
                          eval_set=[(train_x, train_y), (test_x, test_y)],
                         )
print(f"the mae is: ", mean_absolute_error(xgb_Regressor.predict(test_x), test_y))

🔍 4. 主要参数调整

下面为工作实际中使用gbdt算法来进行参数调整优化的一些总结，具体为：

n_estimators：梯度提升树中的弱分类器数量。默认为100。增加弱分类器数量可以提高模型性能，但会增加计算开销。
-learning_rate：学习率。控制每个弱分类器的权重调整程度。较小的学习率能够增加模型的鲁棒性，但会降低模型的收敛速度。默认为0.1。
-max_depth：弱分类器（决策树）的最大深度。用于控制弱分类器的复杂度和防止过拟合。默认为3。
-min_samples_split：拆分内部节点所需的最小样本数。如果某个内部节点的样本数小于该值，则不会再划分。默认为2。
-min_samples_leaf：叶节点所需的最小样本数。如果某个叶节点的样本数小于该值，则该叶节点会被剪枝，合并到其他叶节点上。默认为1。
-max_features：寻找最佳划分特征时要考虑的特征数量。可以是整数（表示考虑的特征数量）或浮点数（表示考虑特征比例）。默认为None，表示考虑所有特征。
-random_state：随机种子。用于控制每次训练结果的随机性。默认为None。
-subsample：子采样比率。用于控制每个弱分类器的训练样本比例。默认为1.0，表示使用全部样本。

🔍 5. 注意事项

选择合适的objective函数，对于回归问题，可以使用reg:squarederror（均方误差）或reg:linear（线性回归）。
特征缩放对XGBoost模型的性能有影响，考虑使用sklearn的StandardScaler或MinMaxScaler进行特征缩放。
调整max_depth和eta参数来控制模型复杂度和防止过拟合。

🔍 6. 总结

GBDT是一种强大的集成学习算法，通过逐步添加决策树来最小化损失函数。scikit-learn提供了易于使用的GBDT实现，适用于分类和回归任务。通过本博客的代码示例，我们学习了如何创建GBDT模型，进行训练、预测和评估。希望这篇博客能够帮助你更好地理解GBDT模型，并将其应用于实际的机器学习问题中。