XGBoost算法梳理

最新推荐文章于 2022-11-17 17:00:28 发布

qq_29652017

最新推荐文章于 2022-11-17 17:00:28 发布

阅读量285

点赞数

本文链接：https://blog.csdn.net/qq_29652017/article/details/99335404

版权

1、算法原理
一种提升树模型，将许多树（CART树）模型集成在一起，形成一个很强的分类器
2、损失函数
http://www.sohu.com/a/287700387_99950807
3、分裂结点算法
1暴力枚举：遍历所有特征的所有可能的分割点，计算Gain值，选取最大(Feature, label)去分裂
2近似方法：对于每个特征，只考察分位点，减少计算复杂度
4、正则化
https://blog.csdn.net/yinyu19950811/article/details/81079192

5、对缺失值处理
在XGBoost论文中关于缺失值的处理将其看作与稀疏矩阵的处理一样。在寻找split point的时候，不会对该特征为missing的样本进行遍历统计，只对该列特征值为non-missing的样本上对应的特征值进行遍历，通过这个技巧来减少了为稀疏离散特征寻找split point的时间开销。在逻辑实现上，为了保证完备性，会分别处理将missing该特征值的样本分配到左叶子结点和右叶子结点的两种情形，计算增益后选择增益大的方向进行分裂即可。可以为缺失值或者指定的值指定分支的默认方向，这能大大提升算法的效率。如果在训练中没有缺失值而在预测中出现缺失，那么会自动将缺失值的划分方向放到右子树。
6、优缺点
优点（1）不仅是CART树，还可以线性分类器（2）引入正则化，提高模型的泛化能力（3）基于预排序算法，并行训练（4）对损失函数进行二阶泰勒展开，利用了一阶和二阶导数
缺点（1）基于level-wise的分裂方式（2）预排序方法空间消耗比较大，不仅要保存特征值，也要保存特征的排序索引，同时时间消耗也大
7、应用场景
物理事件分类、网页文本分类、顾客行为预测、点击率预测、动机探测、产品分类
8、sklearn参数
data: DMatrix的数据源。当数据是字符串类型时，它表示路径libsvm格式txt文件，或者能xgboost读取的二进制文件label：训练数据的标签missing：需要以缺失值的形式表示的数据中的值weight：每个实例的权重silent：是否在构建期间打印信息feature_names：为特性设置名称feature_types：为特性设置类别nthread：从numpy从加载数据的线程数

qq_29652017

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
XGBoost算法梳理

1、算法原理一种提升树模型，将许多树（CART树）模型集成在一起，形成一个很强的分类器2、损失函数http://www.sohu.com/a/287700387_999508073、分裂结点算法1暴力枚举：遍历所有特征的所有可能的分割点，计算Gain值，选取最大(Feature, label)去分裂2近似方法：对于每个特征，只考察分位点，减少计算复杂度4、正则化https://bl...
复制链接

扫一扫