GBDT不错的文章

最新推荐文章于 2021-10-06 23:23:58 发布

幡然醒悟的研二狗-致敬所有受压迫的博士

最新推荐文章于 2021-10-06 23:23:58 发布

阅读量1.1k

点赞数

分类专栏：算法、数据结构

本文链接：https://blog.csdn.net/weixin_42307036/article/details/100858948

版权

算法、数据结构专栏收录该内容

45 篇文章 1 订阅

订阅专栏

GBDT
特征重要性
 xgboost1
xgboost2
xgboost3
xgb预排序
 xgboost和lightgbm
xgboost和lightgbm
xgboost和lightgbm
lightgbm
lightgbm
lightgbm
内含两者直方图方法的差异

补充上述链接中xgboost的优点：

一、XGBoost的优良特性

同样是梯度提升，同样是集成学习，那么XGBoost比GBDT要好在哪里呢？结合前面的推导过程与相关博客文章（见文末参考资料），可大致总结为以下几点：

1、GBDT是以CART为基分类器，但XGBoost在此基础上还支持线性分类器，此时XGBoost相当于带L_1和L_2正则化项的Logistics回归（分类问题）或者线性回归（回归问题）
2、XGBoost在目标函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数和每棵树叶子节点上面输出分数的L_2模平方。从偏差方差权衡的角度来讲，正则项降低了模型的variance，使学习出来的模型更加简单，防止过拟合
3、传统的GBDT在优化时只用到一阶导数，XGBoost则对目标函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。（顺便提一下，XGBoost工具支持自定义代价函数，只要函数可一阶和二阶求导）
4、树节点在进行分裂时，我们需要计算每个特征的每个分割点对应的增益，即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下，贪心算法效率就会变得很低，所以XGBoost采用了一种近似的算法。大致的思想是根据百分位法列举几个可能成为分割点的候选者，然后从候选者中根据上面求分割点的公式计算找出最佳的分割点
5、Shrinkage（缩减），相当于学习速率（XGBoost中的eta）。XGBoost在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。实际应用中，一般把eta设置得小一点，然后迭代次数设置得大一点。（当然普通的GBDT实现也有学习速率）
6、特征列排序后以块的形式存储在内存中，在迭代中可以重复使用；虽然boosting算法迭代必须串行，但是在处理每个特征列时可以做到并行
7、列抽样（column subsampling）：XGBoost借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算，这也是XGBoost异于传统GBDT的一个特性
8、除此之外，XGBoost还考虑了当数据量比较大，内存不够时怎么有效的使用磁盘，主要是结合多线程、数据压缩、分片的方法，尽可能的提高算法效率