XGB算法梳理

最新推荐文章于 2024-11-11 18:36:21 发布

tt1994tt

最新推荐文章于 2024-11-11 18:36:21 发布

阅读量4.2k

点赞数

本文链接：https://blog.csdn.net/tt1994tt/article/details/89194401

版权

1.算法原理
XGBoost是boosting算法的其中一种。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为XGBoost是一种提升树模型，所以它是将许多树模型集成在一起，形成一个很强的分类器。而所用到的树模型则是CART回归树模型。

2.损失函数
在这里插入图片描述

3.对缺失值处理
对缺失值的处理。对于特征的值有缺失的样本，XGBoost内置处理缺失值的规则，可以自动学习出它的分裂方向。

4.优缺点
优点：
（1）xgBoosting在传统Boosting的基础上，利用cpu的多线程，引入正则化项，加入剪纸，控制了模型的复杂度
（2）当样本存在缺失值是，xgBoosting能自动学习分裂方向
（3）xgBoosting在每次迭代之后，为叶子结点分配学习速率，降低每棵树的权重，减少每棵树的影响，为后面提供更好的学习空间；

缺点：
（1）xgBoosting采用预排序，在迭代之前，对结点的特征做预排序，遍历选择最优分割点，数据量大时，贪心法耗时
（2）xgBoosting采用level-wise生成决策树，同时分裂同一层的叶子，从而进行多线程优化，不容易过拟合，但很多叶子节点的分裂增益较低，没必要进行跟进一步的分裂，这就带来了不必要的开销；

5.sklearn参数：
　　在运行XGBoost程序之前，必须设置三种类型的参数：通用类型参数（general parameters）、booster参数和学习任务参数（task parameters）。
　　一般类型参数general parameters –参数决定在提升的过程中用哪种booster，常见的booster有树模型和线性模型。
　　Booster参数-该参数的设置依赖于我们选择哪一种booster模型。
　　学习任务参数task parameters-参数的设置决定着哪一种学习场景，例如，回归任务会使用不同的参数来控制着排序任务。
　　命令行参数-一般和xgboost的CL版本相关。

Booster参数：
　　1. eta[默认是0.3] 和GBM中的learning rate参数类似。通过减少每一步的权重，可以提高模型的鲁棒性。典型值0.01-0.2
　　2. min_child_weight[默认是1] 决定最小叶子节点样本权重和。当它的值较大时，可以避免模型学习到局部的特殊样本。但如果这个值过高，会导致欠拟合。这个参数需要用cv来调整
　　3. max_depth [默认是6] 树的最大深度，这个值也是用来避免过拟合的3-10
　　4. max_leaf_nodes 树上最大的节点或叶子的数量，可以代替max_depth的作用，应为如果生成的是二叉树，一个深度为n的树最多生成2n个叶子,如果定义了这个参数max_depth会被忽略
　　5. gamma[默认是0] 在节点分裂时，只有在分裂后损失函数的值下降了，才会分裂这个节点。Gamma指定了节点分裂所需的最小损失函数下降值。这个参数值越大，算法越保守。
　　6. max_delta_step[默认是0] 这参数限制每颗树权重改变的最大步长。如果是0意味着没有约束。如果是正值那么这个算法会更保守，通常不需要设置。
　　7. subsample[默认是1] 这个参数控制对于每棵树，随机采样的比例。减小这个参数的值算法会更加保守，避免过拟合。但是这个值设置的过小，它可能会导致欠拟合。典型值：0.5-1
　　8. colsample_bytree[默认是1] 用来控制每颗树随机采样的列数的占比每一列是一个特征0.5-1
　　9. colsample_bylevel[默认是1] 用来控制的每一级的每一次分裂，对列数的采样的占比。
　　10. lambda[默认是1] 权重的L2正则化项
　　11. alpha[默认是1] 权重的L1正则化项
　　12. scale_pos_weight[默认是1] 各类样本十分不平衡时，把这个参数设置为一个正数，可以使算法更快收敛。

通用参数：
　　1． booster[默认是gbtree]
　　选择每次迭代的模型，有两种选择：gbtree基于树的模型、gbliner线性模型
　　2． silent[默认是0]
　　当这个参数值为1的时候，静默模式开启，不会输出任何信息。一般这个参数保持默认的0，这样可以帮我们更好的理解模型。
　　3． nthread[默认值为最大可能的线程数]
　　这个参数用来进行多线程控制，应当输入系统的核数，如果你希望使用cpu全部的核，就不要输入这个参数，算法会自动检测。

参考：https://www.cnblogs.com/zongfa/p/9324684.html
https://blog.csdn.net/u013363120/article/details/80195471