xgboost的算法整理

最新推荐文章于 2024-05-11 05:19:07 发布

mashagua

最新推荐文章于 2024-05-11 05:19:07 发布

阅读量266

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/mashagua/article/details/89195500

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1 算法原理
xgboost是boosting 中的一种，所用到的树模型是cart tree
它的目标函数为
在这里插入图片描述第一部分是真实值和预测值的差，第二部分是正则化项，T表示叶子节点的个数，w表示叶子节点的分数，由于新生成的树要拟合上次预测的残差，当生成t颗树后，预测分数写成：
y(t)=y(t-1)+f(x)
因此将目标函数改写为
在这里插入图片描述
然后在f_t=0处的泰勒二阶展开近似

从而进行进一步求解
2
在寻找最佳分割点时，考虑传统的枚举每个特征的所有可能分割点的贪心法效率太低，xgboost实现了一种近似的算法。大致的思想是根据百分位法列举几个可能成为分割点的候选者，然后从候选者中根据上面求分割点的公式计算找出最佳的分割点。
xgboost考虑了训练数据为稀疏值的情况，可以为缺失值或者指定的值指定分支的默认方向，这能大大提升算法的效率
3 优缺点
特征列排序后以块的形式存储在内存中，在迭代中可以重复使用；虽然boosting算法迭代必须串行，但是在处理每个特征列时可以做到并行。
按照特征列方式存储能优化寻找最佳的分割点，但是当以行计算梯度数据时会导致内存的不连续访问，严重时会导致cache miss，降低算法效率。paper中提到，可先将数据收集到线程内部的buffer，然后再计算，提高算法的效率。
xgboost 还考虑了当数据量比较大，内存不够时怎么有效的使用磁盘，主要是结合多线程、数据压缩、分片的方法，尽可能的提高算法的效率。
4 xgboost如何处理缺失值
xgboost把缺失值当做稀疏矩阵来对待，本身在节点分裂时不考虑缺失值，然后碰到的时候，缺失值会被分到左右子树分别计算损失，然后选择最优的那个，预测时若出现了数据缺失，则默认分到右子树
5应用场景
可以用到回归，分类排序等
6 sklearn 参数